Modern society generates huge amounts of information every day, especially in digital format, which obstruct the storage and further processing and analysis. Big data can be defined as a scale of data set that goes beyond existing database management tool capabilities of data collection, storage, management, and analysis capabilities [1]. Although the most common trait of big data is Volume, it is typically defined by three Vs (Volume, Variety and Velocity).
In addition, big data can be classified taking into account the data type:
1.
Structured (data are organized into a predefined data schema).
2.
Semi-structured (data does not require a schema definition but the data includes metadata).
3.
Unstructured (data are stored in an unstructured form without any defined data schema).
There are many different applications in which big data techniques are applicable: data mining, predictive analytics, geoanalysis, natural language processing and pattern recognition. Also, we are heading into a social-media data explosion. In this connection, web-based applications encounter big data frequently, such as social computing, Internet text and documents or Internet search indexing. For this reason, there are some techniques which need to be seriously taken into account such as social network analysis and text mining.
In particular, an important application of the text mining which could be also related with the social big data is: web news mining. Since news websites are daily overwhelmed with plenty of news articles, an important part of the huge amounts of new information produced each day is generated by the on-line newspapers. For this reason, automatic systems which can treat, analyze and classify web news articles are essential not only for those systems which manage web news articles but also for user recommendation tasks.
According to the Statistical Report on Internet Development released by China Internet Network Information Center (CNNIC) in July 2014 [2], the number of online news users in China had reached 503 million by the end of January 2014 (a growth of 98.60 millions from June 2012), and the utilization ratio of online news was 79.6%. In this report, the online news is the third most used network application by Internet users. The first application in this ranking is the Instant messaging (89.3%) and the second one is the Search engine (80.3%). However, news is the most frequently searched content by the Internet users using both computers and mobile phones. In addition, this report suggests that online news has become one of the major channels for Internet users to get news and its utilization ratio has remaining high due to the following reasons: (1) in the era of mobile Internet, it is one of major activities of Internet users to read news in their fragmented time, (2) Internet users can get news through more channels, and (3) all news media vied with each other to make inroads into the mobile Internet.
In the era of big data and because of this explosion of information from news websites, extracting knowledge from news articles becomes an interesting challenge. To that end, we need text mining techniques which can extract relevant information from this kind of unstructured type text data. In addition, online news is a special type of public information mainly because there are many news sources and the update of the news is very fast. News mining tools, techniques, and algorithms are strongly emerging during these times. There are many techniques which help to analyze the overflow of information and extract value knowledge from on-line news sources. However, since this information is continuously growing and changing, these techniques have to skim and search for information much more than they had to do in the past.
During the last years, there have been many approaches related with classification, clustering, categorization and summarization of news articles [3], [4], [5], [6], [7] and [8]. If we consider those approaches which classify news into predefined categories, all of them use a statistic classifier over time. However, the news articles of the different categories change constantly and these changes should be considered in the model of the classifier. For this reason, we propose an approach in which the categories are not predefined but they are updated in an evolving manner according the new news articles and categories obtained. This aspect makes our approach an ideal alternative in this environment.
The presented approach is based on Evolving Fuzzy Systems (EFS) [9] which allows not only update the structure and parameters of an evolving classifier but also cope with huge amounts of web news and process data in on-line and real time – which is essential in this (web) environment. EFS approaches have been successfully applied in many other different areas [10], [11], [12], [13], [14] and [15] and for big data problems [16].
The remainder of the paper is organized as follows: Sect
สังคมสมัยใหม่สร้างจำนวนมากของข้อมูลทุกวัน โดยเฉพาะอย่างยิ่งในรูปแบบดิจิตอล ซึ่งขัดขวางการเก็บ และการ ประมวลผล และการวิเคราะห์ ข้อมูลขนาดใหญ่ที่สามารถกำหนดเป็นขนาดของชุดข้อมูลที่มากกว่าที่มีอยู่ฐานข้อมูลเครื่องมือคุณสามารถเก็บรวบรวมข้อมูล จัดเก็บ จัดการ และการวิเคราะห์ความสามารถ [1] แม้ว่าลักษณะทั่วไปของข้อมูลขนาดใหญ่เป็นไดรฟ์ข้อมูล โดยทั่วไปมีกำหนด โดยสาม Vs (ปริมาณ ความหลากหลาย และความเร็ว)นอกจากนี้ ข้อมูลขนาดใหญ่สามารถจำแนกคำนึงถึงข้อมูลชนิด:1โครงสร้าง (ข้อมูลจะถูกจัดเป็นข้อมูลกำหนด schema)2กึ่งโครงสร้าง (ข้อมูลไม่ต้องมีคำนิยามเค้าร่าง แต่ข้อมูลมีข้อมูลเมตา)3ไม่มีโครงสร้าง (ข้อมูลจะถูกเก็บไว้ในแบบไม่มีโครงสร้างโดยไม่มีเค้าร่างการกำหนดข้อมูลใด ๆ)โปรแกรมประยุกต์จำนวนมากที่เทคนิคข้อมูลได้แตกต่างกัน: การทำเหมืองข้อมูล วิเคราะห์ระบบ geoanalysis การประมวลผลและรูปแบบภาษาธรรมชาติ นอกจากนี้ เรามีหัวเรื่องในการระเบิดข้อมูลสื่อสังคม ในการนี้ การใช้งานเว็บพบข้อมูลบ่อย เช่นงานสังคม อินเทอร์เน็ตข้อความ และเอกสาร หรืออินเทอร์เน็ตค้นหาทำดัชนี ด้วยเหตุนี้ มีบางเทคนิคที่ต้องนำมาพิจารณาเช่นการวิเคราะห์เครือข่ายสังคมและการทำเหมืองข้อความอย่างจริงจังโดยเฉพาะ เป็นโปรแกรมสำคัญของการทำเหมืองข้อความซึ่งอาจจะยังเกี่ยวข้องกับข้อมูลขนาดใหญ่สังคม: เว็บข่าวเหมือง เนื่องจากเว็บไซต์ข่าวประจำวันจะจม มีข่าวและบทความ ส่วนสำคัญของจำนวนมากของข้อมูลใหม่ที่ผลิตแต่ละวันถูกสร้างขึ้น โดยหนังสือพิมพ์ออนไลน์ ด้วยเหตุนี้ ระบบอัตโนมัติซึ่งสามารถจัดการ วิเคราะห์ และจัดประเภทบทความเว็บ เป็นสิ่งจำเป็นสำหรับระบบที่จัดการเว็บข่าวและบทความสำหรับผู้ใช้งานคำแนะนำแต่ยัง ไม่เท่าตามรายงานสถิติการพัฒนาอินเทอร์เน็ตที่ออกโดยประเทศจีนอินเทอร์เน็ตเครือข่ายข้อมูลศูนย์ (CNNIC) ใน 2557 กรกฎาคม [2], จำนวนผู้ใช้ออนไลน์ข่าวในประเทศจีนได้มาถึง 503 ล้านมกราคม 2557 (การเติบโตของ 98.60 ล้านจาก 2555 มิถุนายน), และอัตราการใช้ประโยชน์ข่าวออนไลน์ 79.6% ในรายงานนี้ ข่าวออนไลน์เป็นการประยุกต์เครือข่าย โดยผู้ใช้อินเทอร์เน็ตที่ใช้สุดสาม โปรแกรมแรกในการจัดอันดับนี้เป็นการส่งข้อความ (89.3%) และที่สองคือ เครื่องมือค้นหา (80.3%) อย่างไรก็ตาม ข่าวมีเนื้อหาที่ค้นหาบ่อยที่สุด โดยผู้ใช้อินเทอร์เน็ตที่ใช้คอมพิวเตอร์และโทรศัพท์มือถือ นอกจากนี้ รายงานนี้แนะนำให้ ข่าวออนไลน์ได้กลายเป็นหนึ่งช่องทางสำคัญสำหรับผู้ใช้อินเทอร์เน็ตเพื่อรับข่าวสาร และอัตราการใช้ประโยชน์มีเหลือสูงเนื่องจากสาเหตุต่อไปนี้: (1) ในยุคของอินเทอร์เน็ตเคลื่อนที่ มันเป็นหนึ่งกิจกรรมหลักของผู้ใช้อินเทอร์เน็ตไปอ่านข่าวในเวลากระจัดกระจาย (2) อินเทอร์เน็ตผู้ใช้สามารถรับข่าวสารผ่านช่องทางอื่น ๆ และ (3) ข่าวทั้งหมด vied กับแต่ละอื่น ๆ อย่างอินเทอร์เน็ตมือถือIn the era of big data and because of this explosion of information from news websites, extracting knowledge from news articles becomes an interesting challenge. To that end, we need text mining techniques which can extract relevant information from this kind of unstructured type text data. In addition, online news is a special type of public information mainly because there are many news sources and the update of the news is very fast. News mining tools, techniques, and algorithms are strongly emerging during these times. There are many techniques which help to analyze the overflow of information and extract value knowledge from on-line news sources. However, since this information is continuously growing and changing, these techniques have to skim and search for information much more than they had to do in the past.During the last years, there have been many approaches related with classification, clustering, categorization and summarization of news articles [3], [4], [5], [6], [7] and [8]. If we consider those approaches which classify news into predefined categories, all of them use a statistic classifier over time. However, the news articles of the different categories change constantly and these changes should be considered in the model of the classifier. For this reason, we propose an approach in which the categories are not predefined but they are updated in an evolving manner according the new news articles and categories obtained. This aspect makes our approach an ideal alternative in this environment.The presented approach is based on Evolving Fuzzy Systems (EFS) [9] which allows not only update the structure and parameters of an evolving classifier but also cope with huge amounts of web news and process data in on-line and real time – which is essential in this (web) environment. EFS approaches have been successfully applied in many other different areas [10], [11], [12], [13], [14] and [15] and for big data problems [16].The remainder of the paper is organized as follows: Sect
การแปล กรุณารอสักครู่..