like Google Flu Trends10 or user recommendation services
as those proposed by Netflix or Amazon. The pivotal point
is hence about the balance between benefits and drawbacks
of snooping around people’s big data. Mayer-Schönberger and
Cukier [91] propose four principles which could help to find a
trade-off in this era of big personal data flow:
• Privacy should be seen as a set of rules encompassing
flows of information in ethical ways but not the ability to
keep data secret.
• Shared information can still be confidential.
• Big data mining requires transparency.
• Big data can threaten privacy.
6. Conclusion
We are living in the era of data deluge. The term Big Data
had been coined to describe this age. This paper defines and
characterizes the concept of Big Data. It gives a definition
of this new concept and its characteristics. In addition, a
supply chain and technologies for Big Data management are
presented. During that management, many problems can be
encountered, especially during semantic gathering. Thus it
tackles semantics (reasoning, coreference resolution, entity
linking, information extraction, consolidation, paraphrase
resolution, ontology alignment) with a zoom on “V’s”. It
concludes that volume is the most tackled aspect and
many works leverage Hadoop MapReduce to deal with volume
[21,40,41,22]. More and more, unlike velocity, web and social
media informality and uncertainty are addressed by scientists.
We see that uncertainty can be handled manually (Ripple
Down Rules [44]) or automatically (identification and/or
isolation of inconsistencies [88]). About velocity, gazetteers
and knowledge bases must be continually updated [88,45] and
data processed periodically [43,42]. Similarly if we want to
tackle variety, we must deal with various data formats (tweets
in [45,46,88] and natural language texts [47,80,62,76]) and distributed
data [38,39]. As [13] said, Big Data must be addressed
jointly and on each axis to make significant improvement in
its management.
เช่น Trends10 หวัด Google หรือผู้ใช้บริการแนะนำเป็นผู้เสนอ โดย Netflix หรืออเมซอน จุดสำคัญดังนั้นคือสมดุลระหว่างประโยชน์และข้อเสียการสอดแนมรอบข้อมูลขนาดใหญ่ของคน เมเยอร์-Schönberger และCukier [91] เสนอสี่หลักซึ่งจะช่วยให้การค้นหาปิดในยุคการไหลของข้อมูลส่วนบุคคล:•ส่วนบุคคลควรเห็นเป็นชุดของกฎที่ครอบคลุมกระแสข้อมูลในวิธีทางจริยธรรมแต่ไม่สามารถเก็บข้อมูลลับ•แชร์ข้อมูลยังสามารถลับการทำเหมืองข้อมูล•ต้องมีความโปร่งใส•ข้อมูลขนาดใหญ่สามารถคุกคามความเป็นส่วนตัว6. บทสรุปเราอยู่ในยุคของข้อมูลสถานการณ์น้ำท่วม คำว่าข้อมูลมีการแต่งอธิบายยุคนี้ เอกสารนี้กำหนด และลักษณะแนวคิดของข้อมูลขนาดใหญ่ ให้คำจำกัดความแนวคิดใหม่และลักษณะของ นอกจากนี้ การห่วงโซ่อุปทานและเทคโนโลยีสำหรับการจัดการข้อมูลขนาดใหญ่นำเสนอ ในระหว่างที่จัดการ ปัญหามากสามารถพบ โดยเฉพาะอย่างยิ่งในระหว่างการรวบรวมความหมาย ดังนั้นจึงแก้ความหมาย (การใช้เหตุผล ความละเอียด coreference เอนทิตีเชื่อมโยง การสกัดข้อมูล รวม ถ่ายทอดความละเอียด การจัดตำแหน่งภววิทยา) ซูมบน "V" มันสรุปว่า อยู่ด้านสุด tackled และงานมากใช้ Hadoop MapReduce กับไดรฟ์ข้อมูล[21,40,41,22] มากขึ้นและมากขึ้น ซึ่งแตกต่างจากความเร็ว เว็บ และสังคมโดยนักวิทยาศาสตร์ระบุ informality สื่อและความไม่แน่นอนเราเห็นว่า ความไม่แน่นอนสามารถจัดการด้วยตนเอง (กระเพื่อมลงกฎ [44]) หรือโดยอัตโนมัติ (รหัส หรือแยกส่วนไม่สอดคล้องกัน [88]) เกี่ยวกับความเร็ว gazetteersและฐานความรู้ต้องปรับปรุงอย่างต่อเนื่อง [88,45] และข้อมูลถูกประมวลผลเป็นระยะ ๆ [43,42] ในทำนองเดียวกันหากเราต้องการแก้ไขปัญหาต่าง ๆ เราต้องจัดการกับรูปแบบข้อมูลต่าง ๆ (ทวีใน [45,46,88] และข้อความภาษาธรรมชาติ [47,80,62,76]) และแบบกระจายข้อมูล [38,39] เป็นต้องได้รับข้อมูลดังกล่าว ใหญ่ [13]ร่วมกัน และ ในแต่ละแกนเพื่อให้ปรับปรุงที่สำคัญในการบริหารจัดการ
การแปล กรุณารอสักครู่..
ต้องการให้ Google ไข้หวัดใหญ่ Trends10 หรือคำเสนอแนะของผู้ใช้บริการ
เป็นผู้ที่เสนอโดย Netflix หรือ Amazon จุดสำคัญ
คือเหตุเกี่ยวกับความสมดุลระหว่างผลประโยชน์และข้อเสีย
ของการสอดแนมรอบข้อมูลขนาดใหญ่ของผู้คน เมเยอร์-Schonberger และ
Cukier [91] เสนอหลักการที่สี่ซึ่งจะช่วยให้คุณจะพบกับ
การออกในยุคของการไหลของข้อมูลส่วนบุคคลขนาดใหญ่นี้:
•สิทธิส่วนบุคคลควรจะเห็นเป็นชุดของกฎครอบคลุม
กระแสของข้อมูลในรูปแบบที่มีจริยธรรม แต่ไม่ความสามารถในการ เพื่อ
รักษาความลับของข้อมูล.
•ข้อมูลที่ใช้ร่วมกันก็ยังคงเป็นความลับ.
•การทำเหมืองข้อมูลบิ๊กต้องโปร่งใส.
•ข้อมูลขนาดใหญ่สามารถคุกคามความเป็นส่วนตัว.
6 สรุป
เรากำลังอยู่ในยุคของข้อมูลน้ำท่วม คำข้อมูลขนาดใหญ่
ได้รับการประกาศเกียรติคุณในการอธิบายถึงวัยนี้ กระดาษนี้จะกำหนดและ
ลักษณะเฉพาะของแนวคิดของข้อมูลขนาดใหญ่ มันให้ความหมาย
ของแนวคิดใหม่นี้และลักษณะของ นอกจากนี้ยังมี
ห่วงโซ่อุปทานและเทคโนโลยีสำหรับการจัดการข้อมูลขนาดใหญ่จะ
นำเสนอ ในระหว่างการจัดการที่เป็นปัญหามากสามารถ
พบโดยเฉพาะอย่างยิ่งระหว่างการรวบรวมความหมาย ดังนั้นมันจึง
มีการฝึกฝนความหมาย (เหตุผลความละเอียด coreference กิจการ
การเชื่อมโยงการสกัดข้อมูลรวมถอดความ
ละเอียดการจัดแนวอภิปรัชญา) ด้วยการซูมที่ "วี" มัน
สรุปว่าปริมาณเป็นความท้าทายที่มากที่สุดด้านและ
หลายงานงัด Hadoop MapReduce ที่จะจัดการกับปริมาณ
[21,40,41,22] มากขึ้นและแตกต่างจากความเร็วเว็บสังคมและ
ความเป็นกันเองของสื่อและความไม่แน่นอนได้รับการแก้ไขโดยนักวิทยาศาสตร์.
เราจะเห็นว่ามีความไม่แน่นอนสามารถจัดการได้ด้วยตนเอง (ระลอก
ระเบียบ [44]) หรือโดยอัตโนมัติ (บัตรประจำตัวและ / หรือ
การแยกไม่สอดคล้องกัน [88]) เกี่ยวกับความเร็ว Gazetteers
และฐานความรู้ที่ต้องได้รับการปรับปรุงอย่างต่อเนื่อง [88,45] และ
การประมวลผลข้อมูลเป็นระยะ ๆ [43,42] ในทำนองเดียวกันถ้าเราต้องการที่จะ
แก้ไขปัญหาต่าง ๆ ที่เราจะต้องจัดการกับรูปแบบข้อมูลต่างๆ (ทวีต
ใน [45,46,88] และข้อความภาษาธรรมชาติ [47,80,62,76]) และแจกจ่าย
ข้อมูล [38,39] ในฐานะที่เป็น [13] กล่าวว่าข้อมูลขนาดใหญ่จะต้องอยู่
ร่วมกันและในแต่ละแกนจะทำให้การปรับปรุงที่สำคัญใน
การบริหารจัดการ
การแปล กรุณารอสักครู่..