• Association rule learning to find relationships among entities
(mainly used in recommendation systems).
• Machine learning to bring computer to learn complex
patterns and make intelligent decisions based on it [10].
• Data mining which can be seen as a combination of statistics
and machine learning and statistics with database
management [10].
• Cluster analysis used as unsupervised machine learning. It
aims to divide data into smaller clusters having the same
set of characteristics not known in advance.
9 For technologies see [3].
• Crowdsourcing used to collect data and/or features and
metadata to enhance the current semantics of data.
• Text analytics which aims to analyze large text collections
(email, web pages, etc.) to extract information. It is used
for topics modeling, question answering, etc.
Some proposals emphasize that those techniques rely on a
generalized picture of the underlying knowledge. Due to their
design they fail to capture the subtleties of the processes
which produce these data [33,34]. Moreover, these techniques
sometimes behave badly with very large datasets. It is the
case for example of learning-based techniques. There, size of
training data can exceed memory or the fast growing number
of features can lead to a high execution time. Sengamedu [35]
presents some scalable methods which can be applied for
machine learning (Random Projections, Stochastic Gradient
Descent and MinClosed sequences). Trends about big data
analytics are summarized within [31]. They mainly concern
visualization of multi-form, multi-source and real-time data.
Moreover, the size of data limits in-memory processing.
3.3. Adding Big Data capability to an existing information
system
A whole book can be written on this topic. It is what had
been done by [3] by the study of data warehousing in the
age of Big Data. A number of strategies of this integration
are presented in Table 1. The first step of that integration is
about data acquisition. Since traditional databases have to
deal with structured data, existing ecosystem needs to be
extended across all of the data types and domains. Then,
data integration capability needs to deal with velocity and
frequency. The challenge here is also about ever growing
volume and, because many technologies leverage Hadoop, use
technologies that allow you to interact with Hadoop in a bidirectional
manner: load and store data (HDFS) and process
and reuse the output (MapReduce) for further processing.
[14, page 12] reminds us that the main challenge is not to
build “that is ideally suited for all processing tasks” but to
have an underlying architecture flexible enough to permit to
processes built on top to work at their full potential. For sure
there is not a commonly agreed solution, an infrastructure is
intimately tied to the purpose of the organization in which
it is used and consequently to the kind of integration (realtime
or batch). More and other important questions have to
be answered: are Big Data stored timeliness or not [4]?
•สมาคมกฎการเรียนรู้การหาความสัมพันธ์ระหว่างเอนทิตี(ส่วนใหญ่ใช้ในคำแนะนำของระบบ)เรียนรู้การนำคอมพิวเตอร์เพื่อการเรียนรู้ที่ซับซ้อนของเครื่อง•รูปแบบและทำการตัดสินใจอันชาญฉลาดนั้น [10]•การทำเหมืองข้อมูลที่มาของสถิติและเรียนรู้ของเครื่องและสถิติกับฐานข้อมูลการจัดการ [10]•วิเคราะห์คลัสเตอร์ที่ใช้เรียนรู้เครื่องขั่ว มันการแบ่งข้อมูลเป็นคลัสเตอร์ขนาดเล็กที่มีเหมือนกันชุดของลักษณะที่ไม่ทราบล่วงหน้า9 เทคโนโลยีดู [3]• Crowdsourcing ที่ใช้ในการเก็บรวบรวมข้อมูลหรือคุณสมบัติ และข้อมูลเมตาเพื่อเพิ่มความหมายของปัจจุบันของข้อมูล•การวิเคราะห์ข้อความที่วิเคราะห์คอลเลกชันของข้อความขนาดใหญ่(อีเมล หน้าเว็บ ฯลฯ) ในการดึงข้อมูล มีใช้สำหรับหัวข้อการสร้างโมเดล ถามตอบ ฯลฯข้อเสนอบางอย่างเน้นเทคนิคที่ใช้ในการรูปภาพทั่วไปความรู้พื้นฐาน เนื่องจากพวกเขาพวกเขาล้มเหลวในการจับภาพรายละเอียดปลีกย่อยของกระบวนการออกแบบซึ่งผลิตข้อมูลเหล่านี้ [33,34] นอกจากนี้ เทคนิคเหล่านี้บางครั้งทำตัวไม่ดีกับชุดข้อมูลขนาดใหญ่มาก มันเป็นการกรณีตัวอย่างเช่นของเทคนิคที่ใช้การเรียนรู้ มี ขนาดของข้อมูลการฝึกอบรมสามารถเกินหน่วยความจำหรือจำนวนที่เพิ่มขึ้นอย่างรวดเร็วคุณสมบัติสามารถนำไปสู่เวลาการดำเนินการสูง Sengamedu [35]แสดงวิธีการบางอย่างปรับได้ซึ่งสามารถใช้สำหรับเครื่องเรียน (สุ่มคาดการณ์ Stochastic ไล่ระดับสีเชื้อสายและ MinClosed ลำดับ) แนวโน้มเกี่ยวกับข้อมูลanalytics are summarized within [31]. They mainly concernvisualization of multi-form, multi-source and real-time data.Moreover, the size of data limits in-memory processing.3.3. Adding Big Data capability to an existing informationsystemA whole book can be written on this topic. It is what hadbeen done by [3] by the study of data warehousing in theage of Big Data. A number of strategies of this integrationare presented in Table 1. The first step of that integration isabout data acquisition. Since traditional databases have todeal with structured data, existing ecosystem needs to beextended across all of the data types and domains. Then,data integration capability needs to deal with velocity andfrequency. The challenge here is also about ever growingvolume and, because many technologies leverage Hadoop, usetechnologies that allow you to interact with Hadoop in a bidirectionalmanner: load and store data (HDFS) and processand reuse the output (MapReduce) for further processing.[14, page 12] reminds us that the main challenge is not tobuild “that is ideally suited for all processing tasks” but tohave an underlying architecture flexible enough to permit toprocesses built on top to work at their full potential. For surethere is not a commonly agreed solution, an infrastructure isintimately tied to the purpose of the organization in whichit is used and consequently to the kind of integration (realtimeor batch). More and other important questions have to
be answered: are Big Data stored timeliness or not [4]?
การแปล กรุณารอสักครู่..