2. Background and related work
Many different scientific fields have become highly data-driven with the development of computer science. Social computing [17], astronomy [18] or bioinformatics [19] are some examples of these fields.
Big data uses different techniques to efficiently process large volume of data within limited run times. Because of the most common trait of big data is Volume, the most important challenge is scalability when we deal with the big data analysis tasks. In this sense, incremental algorithms have good scalability property [20] and [21]. If we focus on the disciplines of data mining and machine learning, we should consider that big data mining is more challenging compared with traditional data mining algorithms [22].
However, in the big data era, we have to consider that the most common format of information storage is text such as web pages, emails, documents or social media. For this reason, text analysis or text mining is a powerful technique at that time. The term text mining or Knowledge Discovery from Text (KDT) was mentioned for the first time in 1995 by Feldman et al. [23]. They propose to structure the text documents by means of information extraction, text categorization, or applying NLP techniques as pre-processing step before performing any kind of KDTs.
Text mining, also known as text data mining[24], can be defined as the analysis of semi-structured or unstructured text data. As the text is in unstructured form, it is quite difficult to deal with it. In fact, text mining is a much more complex task than data mining [25] as it involves dealing with text data which are inherently unstructured and fuzzy. Thus, the goal of the text mining is to turn text information into numbers so that data mining algorithms can be applied. It arose from the related fields of data mining, artificial intelligence, statistics, databases, library science, and linguistics. As it is detailed in [3], since text mining is a multidisciplinary field, this term has been used to describe different applications such as text categorization [26] and [27], prediction [28] and [29], text clustering [30] and [31], association discovery [32] and [33] and finding patterns in text databases [34].
In the text mining area, Twitter is considered as a rich source of information for text analysis. In [35], the authors find similarities between tweets before the World Cup started. The high-value social audience from Twitter is identified through text-mining methods [36]. In this case, the Twitter content of an account owner and its list of followers are analyzed. A survey on text mining and sentiment analysis for unstructured web data is presented in [37]. Mathioudakis et al. [38] propose TwitterMonitor, a system which detects topic trends in real time and provides meaningful analytics that synthesize an accurate description of each topic. Kim et al. propose in [39] a spatio-temporal trend detection and related keyword recommendation scheme for tweets called TwitterTrends. These scheme can identify keyworkds and recommmend related keywords at a given location and time.
Other application of the text mining is: Web news mining. This term describes the analysis of web news and is a special type of public information which has special characteristics [40]. The existence of numerous reliable news sources and fast news updates are two important differences. For this reason, new approaches, technologies and tools need to be developed in order to achieve the different goals proposed in this area.
During the last years, there have been many approaches related with web news mining and news exploration systems. In [6], the authors describe the use of data mining techniques to analyze web news. It is concluded from that study that web mews mining at the terms level serves as a powerful technique to manage knowledge encapsulated in large web news collection. As in our approach, the authors analyze web news by using text mining. However, that research only implements the process of terms extraction from the web news. Our approach, not only analyzes web news but also classifies them in a specific topic.
In [41] the authors propose a flexible topic-driven framework for news exploration. It performs news mining at the topic level and presents news information with topics, entities and relations derived from the news data. Also, the authors consider that in order to facilitate an in-depth analysis of the news it is necessary to extract structured information (ideally, identifying who, what, whom, when, where and why [42]). In [43], it is presented an endeavor aiming at construction of a real-time event extraction system for border security-related intelligence gathering from online news. In [44] a quantitative method that identifies weak signal topics by exploiting keyword-based text mining is presented. This method is illustrated using web news articles related to solar cells.
Because the amount of web news is huge, there
2. พื้นหลัง และทำงานที่เกี่ยวข้องหลากหลายด้านวิทยาศาสตร์ได้เป็นอย่างสูงข้อมูลขับเคลื่อน ด้วยการพัฒนาทางวิทยาการคอมพิวเตอร์ สังคมการงาน [17], ดาราศาสตร์ [18] หรือ bioinformatics [19] เป็นตัวอย่างของเขตข้อมูลเหล่านี้ข้อมูลขนาดใหญ่ใช้เทคนิคที่แตกต่างมีประสิทธิภาพประมวลผลของข้อมูลภายในรันไทม์จำกัด เนื่องจากลักษณะทั่วไปของข้อมูลขนาดใหญ่เป็นไดรฟ์ข้อมูล ความท้าทายที่สำคัญที่สุดเป็นภาระเมื่อเราจัดการกับงานวิเคราะห์ข้อมูลขนาดใหญ่ ในนี้รู้สึก อัลกอริทึมเพิ่มมีคุณสมบัติภาระดี [20] และ [21] ถ้าเรามุ่งเน้นในสาขาการทำเหมืองข้อมูลและการเรียนรู้ของเครื่อง เราควรพิจารณาการทำเหมืองข้อมูลท้าทายมากขึ้นเมื่อเทียบกับอัลกอริทึมการทำเหมืองข้อมูลดั้งเดิม [22]อย่างไรก็ตาม ในยุคข้อมูล เราต้องพิจารณาว่า รูปแบบทั่วไปของการจัดเก็บข้อมูลเป็นข้อความเช่นหน้าเว็บ อีเมล เอกสาร หรือสื่อสังคม ด้วยเหตุนี้ ข้อความวิเคราะห์ข้อความการทำเหมืองแร่เป็นเทคนิคที่มีประสิทธิภาพที่ การทำเหมืองข้อความคำหรือค้นหาความรู้จากข้อความ (KDT) ได้กล่าวถึงเป็นครั้งแรกในปี 1995 โดยเฟลด์แมน et al. [23] พวกเขาเสนอการจัดโครงสร้างเอกสารข้อความโดยวิธีการสกัดข้อมูล การจัดประเภทข้อความ หรือใช้เทคนิค NLP เป็นขั้นตอนก่อนการประมวลผลก่อนทำการ KDTs ชนิดใดก็การทำเหมืองข้อความ หรือที่เรียกว่าข้อความการทำเหมืองข้อมูล [24], สามารถกำหนดได้เป็นการวิเคราะห์ข้อมูลข้อความที่ไม่มีโครงสร้าง หรือกึ่งโครงสร้าง เป็นข้อความเป็นแบบไม่มีโครงสร้าง มันเป็นเรื่องยากที่จะจัดการกับมัน ในความเป็นจริง การทำเหมืองข้อความคือ งานซับซ้อนมากขึ้นกว่าข้อมูลเหมือง [25] เนื่องจากมีการจัดการกับข้อมูลข้อความซึ่งเป็นความไม่มีโครงสร้าง และพร่าเลือน ดังนั้น เป้าหมายของการทำเหมืองข้อความคือข้อความข้อมูลตัวเลขเพื่อให้สามารถใช้อัลกอริทึมการทำเหมืองข้อมูลของ มันเกิดจากฟิลด์ที่เกี่ยวข้องของการทำเหมืองข้อมูล ปัญญาประดิษฐ์ สถิติ ฐานข้อมูล ห้องสมุดวิทยาศาสตร์ และภาษาศาสตร์ มันมีรายละเอียดใน [3], ตั้งแต่การทำเหมืองข้อความคือ เขตสหสาขาวิชาชีพ ระยะนี้มีการใช้งานแตกต่างกันเช่นการจัดประเภทข้อความ [26] [27], ทำนาย [28] และ [29], ข้อความที่คลัสเตอร์ [30] และ [31], สมาคมค้นพบ [32] และ [33] และหารูปแบบในฐานข้อมูลข้อความ [34]ในพื้นที่การทำเหมืองข้อความ Twitter ถือเป็นแหล่งอุดมไปด้วยข้อมูลสำหรับการวิเคราะห์ความ ใน [35], ผู้เขียนพบความคล้ายคลึงระหว่างทวีเริ่มต้นก่อน ผู้เข้าชมสังคมมูลค่าสูงจากทวิตเตอร์ระบุผ่านวิธีการทำเหมืองข้อความ [36] ในกรณีนี้ เนื้อหา Twitter ของเจ้าของบัญชีและรายชื่อของผู้ติดตามจะวิเคราะห์ การสำรวจการทำเหมืองข้อความและการวิเคราะห์ความเชื่อมั่นสำหรับเว็บที่ไม่มีโครงสร้างข้อมูลนำเสนอใน [37] Mathioudakis et al. [38] เสนอ TwitterMonitor ระบบที่ตรวจพบแนวโน้มหัวข้อในเวลาจริง และให้ความหมายการวิเคราะห์ที่สังเคราะห์คำอธิบายที่ถูกต้องของแต่ละหัวข้อ คิมร้อยเอ็ดเสนอ [39] ตรวจสอบแนวโน้ม spatio ขมับและโครงร่างคำแนะนำคำสำคัญที่เกี่ยวข้องสำหรับทวีที่เรียกว่า TwitterTrends โครงร่างเหล่านี้สามารถระบุ keyworkds และ recommmend ที่เกี่ยวข้องกับคำสำคัญในสถานที่ที่กำหนดและเวลาได้เป็นโปรแกรมประยุกต์การทำเหมืองข้อความ: เว็บข่าวเหมือง คำนี้อธิบายการวิเคราะห์ของเว็บข่าว และเป็นชนิดพิเศษของข้อมูลที่มีลักษณะพิเศษ [40] การดำรงอยู่ของแหล่งข่าวที่เชื่อถือได้และรวดเร็วข่าวสารจำนวนมากมีความแตกต่างสำคัญสอง ด้วยเหตุนี้ ใหม่ ๆ เทคโนโลยี และเครื่องมือที่จำเป็นต้องได้รับการพัฒนาเพื่อให้บรรลุเป้าหมายต่าง ๆ ที่นำเสนอในพื้นที่นี้ในระหว่างปี มีหลายวิธีที่เกี่ยวข้องกับเว็บข่าวข่าวและทำเหมืองแร่สำรวจระบบ ใน [6], ผู้เขียนอธิบายการใช้เทคนิคการทำเหมืองข้อมูลการวิเคราะห์ข่าวสารเว็บ มันคือสรุปจากการศึกษาที่เว็บที่มิวส์เหมืองระดับเงื่อนไขการให้บริการเป็นเทคนิคที่มีประสิทธิภาพในการจัดการความรู้ที่ช่วยเก็บข่าวเว็บขนาดใหญ่ ในวิธีการของเรา ผู้เขียนวิเคราะห์ข่าวเว็บ โดยใช้การทำเหมืองข้อความ อย่างไรก็ตาม งานวิจัยที่ใช้กระบวนการในการสกัดคำจากเว็บข่าวเท่านั้น วิธีการของเรา ไม่เพียงแต่วิเคราะห์ข่าวเว็บ แต่ยัง จัดประเภทในหัวข้อเฉพาะใน [41] ผู้เขียนเสนอกรอบหัวข้อการขับเคลื่อนความยืดหยุ่นสำหรับการสำรวจแหล่งข่าว ทำข่าวการทำเหมืองในระดับหัวข้อ และนำเสนอข้อมูลข่าวสารหัวข้อ เอนทิตี และความสัมพันธ์ที่ได้มาจากข้อมูลข่าวสาร ผู้เขียนพิจารณาว่า เพื่ออำนวยความสะดวกในการวิเคราะห์ข่าวเชิงลึก จึงจำเป็นต้องแยกโครงสร้างข้อมูล (ระบุระดับ ใคร อะไร ที่ เมื่อ ที่ และทำไม [42]) ใน [43], มันจะแสดงความพยายามมุ่งที่การก่อสร้างระบบแยกเหตุการณ์แบบเรียลไทม์สำหรับเส้นขอบการรวบรวมข่าวกรองจากข่าวออนไลน์ แสดงวิธีการเชิงปริมาณที่ระบุหัวข้อสัญญาณ โดยใช้ประโยชน์จากการทำเหมืองข้อความที่ใช้คำสำคัญ ใน [44] วิธีนี้แสดงให้เห็นการใช้เว็บบทความข่าวที่เกี่ยวข้องกับเซลล์แสงอาทิตย์นี้เนื่องจากจำนวนข่าวเว็บมีขนาดใหญ่
การแปล กรุณารอสักครู่..
