We are living in the era of data deluge. The term Big Data
had been coined to describe this age. This paper defines and
characterizes the concept of Big Data. It gives a definition
of this new concept and its characteristics. In addition, a
supply chain and technologies for Big Data management are
presented. During that management, many problems can be
encountered, especially during semantic gathering. Thus it
tackles semantics (reasoning, coreference resolution, entity
linking, information extraction, consolidation, paraphrase
resolution, ontology alignment) with a zoom on “V’s”. It
concludes that volume is the most tackled aspect and
many works leverage Hadoop MapReduce to deal with volume
[21,40,41,22]. More and more, unlike velocity, web and social
media informality and uncertainty are addressed by scientists.
We see that uncertainty can be handled manually (Ripple
Down Rules [44]) or automatically (identification and/or
isolation of inconsistencies [88]). About velocity, gazetteers
and knowledge basesmust be continually updated [88,45] and
data processed periodically [43,42]. Similarly if we want to
tackle variety, wemust deal with various data formats (tweets
in [45,46,88] and natural language texts [47,80,62,76]) and distributed
data [38,39]. As [13] said, Big Data must be addressed
jointly and on each axis to make significant improvement in
its management.
เราอยู่ในยุคของข้อมูลสถานการณ์น้ำท่วม คำว่าข้อมูลมีการแต่งอธิบายยุคนี้ เอกสารนี้กำหนด และลักษณะแนวคิดของข้อมูลขนาดใหญ่ ให้คำจำกัดความแนวคิดใหม่และลักษณะของ นอกจากนี้ การห่วงโซ่อุปทานและเทคโนโลยีสำหรับการจัดการข้อมูลขนาดใหญ่นำเสนอ ในระหว่างที่จัดการ ปัญหามากสามารถพบ โดยเฉพาะอย่างยิ่งในระหว่างการรวบรวมความหมาย ดังนั้นจึงแก้ความหมาย (การใช้เหตุผล ความละเอียด coreference เอนทิตีเชื่อมโยง การสกัดข้อมูล รวม ถ่ายทอดความละเอียด การจัดตำแหน่งภววิทยา) ซูมบน "V" มันสรุปว่า อยู่ด้านสุด tackled และงานมากใช้ Hadoop MapReduce กับไดรฟ์ข้อมูล[21,40,41,22] มากขึ้นและมากขึ้น ซึ่งแตกต่างจากความเร็ว เว็บ และสังคมโดยนักวิทยาศาสตร์ระบุ informality สื่อและความไม่แน่นอนเราเห็นว่า ความไม่แน่นอนสามารถจัดการด้วยตนเอง (กระเพื่อมลงกฎ [44]) หรือโดยอัตโนมัติ (รหัส หรือแยกส่วนไม่สอดคล้องกัน [88]) เกี่ยวกับความเร็ว gazetteersและความรู้ basesmust จะปรับปรุงอย่างต่อเนื่อง [88,45] และข้อมูลถูกประมวลผลเป็นระยะ ๆ [43,42] ในทำนองเดียวกันหากเราต้องการแก้ไขปัญหาต่าง ๆ wemust จัดการกับรูปแบบข้อมูลต่าง ๆ (ทวีใน [45,46,88] และข้อความภาษาธรรมชาติ [47,80,62,76]) และแบบกระจายข้อมูล [38,39] เป็นต้องได้รับข้อมูลดังกล่าว ใหญ่ [13]ร่วมกัน และ ในแต่ละแกนเพื่อให้ปรับปรุงที่สำคัญในการบริหารจัดการ
การแปล กรุณารอสักครู่..
เรากำลังอยู่ในยุคของข้อมูลน้ำท่วม คำข้อมูลขนาดใหญ่
ได้รับการประกาศเกียรติคุณในการอธิบายถึงวัยนี้ กระดาษนี้จะกำหนดและ
ลักษณะเฉพาะของแนวคิดของข้อมูลขนาดใหญ่ มันให้ความหมาย
ของแนวคิดใหม่นี้และลักษณะของ นอกจากนี้ยังมี
ห่วงโซ่อุปทานและเทคโนโลยีสำหรับการจัดการข้อมูลขนาดใหญ่จะ
นำเสนอ ในระหว่างการจัดการที่เป็นปัญหามากสามารถ
พบโดยเฉพาะอย่างยิ่งระหว่างการรวบรวมความหมาย ดังนั้นมันจึง
มีการฝึกฝนความหมาย (เหตุผลความละเอียด coreference กิจการ
การเชื่อมโยงการสกัดข้อมูลรวมถอดความ
ละเอียดการจัดแนวอภิปรัชญา) ด้วยการซูมที่ "วี" มัน
สรุปว่าปริมาณเป็นความท้าทายที่มากที่สุดด้านและ
หลายงานงัด Hadoop MapReduce ที่จะจัดการกับปริมาณ
[21,40,41,22] มากขึ้นและแตกต่างจากความเร็วเว็บสังคมและ
ความเป็นกันเองของสื่อและความไม่แน่นอนได้รับการแก้ไขโดยนักวิทยาศาสตร์.
เราจะเห็นว่ามีความไม่แน่นอนสามารถจัดการได้ด้วยตนเอง (ระลอก
ระเบียบ [44]) หรือโดยอัตโนมัติ (บัตรประจำตัวและ / หรือ
การแยกไม่สอดคล้องกัน [88]) เกี่ยวกับความเร็ว Gazetteers
และความรู้ basesmust ได้รับการปรับปรุงอย่างต่อเนื่อง [88,45] และ
การประมวลผลข้อมูลเป็นระยะ ๆ [43,42] ในทำนองเดียวกันถ้าเราต้องการที่จะ
แก้ไขปัญหาความหลากหลายจัดการ wemust ที่มีรูปแบบข้อมูลต่างๆ (ทวีต
ใน [45,46,88] และภาษาธรรมชาติตำรา [47,80,62,76]) และแจกจ่าย
ข้อมูล [38,39] ในฐานะที่เป็น [13] กล่าวว่าข้อมูลขนาดใหญ่จะต้องอยู่
ร่วมกันและในแต่ละแกนจะทำให้การปรับปรุงที่สำคัญใน
การบริหารจัดการ
การแปล กรุณารอสักครู่..