2. What is big data?
Manyika et al. [10, page 1] define Big Data as “datasets whose
size is beyond the ability of typical database software tools
to capture, store, manage, and analyze”. Likewise, Davis and
Patterson [1, page 4] say “Big data is data too big to be handled
and analyzed by traditional database protocols such as SQL”;
and the same opinion is shared by [11,3,4], etc. Both groups of
authors previously mentioned go beyond the only size aspects
of data when defining Big Data! Edd Dumbill in [12, page 3]
explicitly conveys the multi-dimensionality of Big Data when
adding that “the data is too big, moves too fast, or doesn’t fit
the strictures of your database architectures”. This quotation
allows us to see that extra characteristics should be added to
large datasets to be considered as Big Data, or big size data as
often found throughout the literature [2].
Now it is assumed that size is not the only feature of Big
Data. Many authors [1,12,11,9,13,4] explicitly use the Three
V’s (Volume, Variety and Velocity) to characterize Big Data. If
the three V’s are largely found in the literature, many authors
[10,13] and institutes like IEEE focus on Big Data Value, Veracity
and Visualization. This last “V” to notice how important it is to
provide good tools to figure out data and analysis’ results.2
Volume (Data in rest). The benefit gained from the
ability to process large amounts of information is the main
attraction of big data analytics. Having more data beats
having better models [12]. The consequence is that it is a
trend for many companies to store vast amount of various
sorts of data: social networks data, health care data, financial
data, biochemistry and genetic data, astronomical data, etc.
Variety (Data in many forms). These data do not have
a fixed structure and rarely present themselves in a perfectly
ordered form and ready for processing [12]. Indeed,such data can be highly structured (data from relational
databases), semi-structured (web logs, social media feeds, raw
feed directly from a sensor source, email, etc.) or unstructured
(video, still images, audio, clicks) [12]. Another “V”, for Variability,
can be added to variety to emphasize on semantics,
or the variability of meaning in language and communication
protocols.
Velocity (Data in motion). Velocity involves streams of
data, structured records creation, and availability for access
and delivery.3
Indeed it is not just the velocity of the incoming
data that is the issue: it is possible to stream fast-moving data
into bulk storage for later batch processing, for example. The
importance lies in the speed of the feedback loop, taking data
from input through to decision [12].
Value (Data in highlight). This feature is the purpose
of Big Data technology. This view is well expressed by
the International Data Corporation4 when saying that Big
Data architectures are: “designed to economically extract value
from very large volumes of a wide variety of data, by enabling
high-velocity capture, discovery, and/or analysis”. This value
falls into two categories: analytical use (replacing/supporting
human decision, discovering needs, segmenting populations
to customize actions) and enabling new business models,
products and services [12,10].
Veracity (Data in doubt). Veracity is what is conform
with truth or fact, or in short, Accuracy, Certainty, Precision.
Uncertainty can be caused by inconsistencies, model
approximations, ambiguities, deception, fraud, duplication,
incompleteness, spam and latency. Due to veracity, results
derived from Big data cannot be proven; but they can be
assigned a probability.
To conclude, dealing effectively with Big Data requires one
to create value against the volume, variety and veracity of data
while it is still in motion (velocity), not just after it is at
rest [11]. And at the end, as recommended by [13], scientists
must jointly tackle Big Data with all its features.
2. ข้อมูลขนาดใหญ่อะไร
Manyika et al, [10 หน้า 1] กำหนดข้อมูลขนาดใหญ่เป็น "ชุดข้อมูลที่มี
ขนาดเกินความสามารถของเครื่องมือซอฟต์แวร์ฐานข้อมูลทั่วไป
บันทึกจัดเก็บจัดการและวิเคราะห์" ในทำนองเดียวกันเดวิสและ
แพตเตอร์สัน [1, หน้า 4] พูดว่า "ข้อมูลขนาดใหญ่เป็นข้อมูลที่มีขนาดใหญ่เกินไปที่จะจัดการ
และวิเคราะห์โดยโปรโตคอลฐานข้อมูลแบบดั้งเดิมเช่น SQL";
และมีความคิดเห็นแบบเดียวกันจะใช้ร่วมกันโดย [11,3,4] ฯลฯ ทั้งสองกลุ่มของ
ผู้เขียนกล่าวถึงก่อนหน้านี้ไปไกลกว่าด้านขนาดเพียง
ของข้อมูลเมื่อกำหนดข้อมูลขนาดใหญ่! กรม Dumbill ใน [12, หน้า 3]
อย่างชัดเจนบ่งบอกถึงหลายมิติของข้อมูลขนาดใหญ่เมื่อ
เสริมว่า "ข้อมูลที่มีขนาดใหญ่เกินไปย้ายเร็วเกินไปหรือไม่พอดี
ระบายสถาปัตยกรรมฐานข้อมูลของคุณ" คำพูดนี้
ช่วยให้เราเห็นว่าลักษณะพิเศษควรจะเพิ่ม
ชุดข้อมูลขนาดใหญ่ที่จะได้รับการพิจารณาเป็นข้อมูลขนาดใหญ่หรือข้อมูลขนาดใหญ่เป็น
มักจะพบได้ทั่ววรรณกรรม [2].
ตอนนี้ก็จะถือว่าเป็นขนาดที่ไม่ได้เป็นคุณลักษณะเฉพาะของบิ๊ก
ดาต้า . ผู้เขียนหลาย [1,12,11,9,13,4] อย่างชัดเจนใช้สาม
วี (ปริมาณ, วาไรตี้และความเร็ว) ที่จะอธิบายลักษณะข้อมูลขนาดใหญ่ ถ้า
สามวีส่วนใหญ่จะพบในวรรณคดีหลายคนเขียน
[10,13] และสถาบันเช่น IEEE มุ่งเน้นไปที่ราคาข้อมูลขนาดใหญ่ความจริง
และการมองเห็น สุดท้ายนี้ "วี" เพื่อแจ้งให้ทราบว่าสำคัญก็คือการ
มีเครื่องมือที่ดีที่จะคิดออกและวิเคราะห์ข้อมูล 'results.2
ปริมาณ (ข้อมูลในส่วนที่เหลือ) ผลประโยชน์ที่ได้รับจาก
ความสามารถในการประมวลผลข้อมูลจำนวนมากเป็นหลัก
ที่น่าสนใจของการวิเคราะห์ข้อมูลขนาดใหญ่ มีมากขึ้นเต้นข้อมูลที่
มีรูปแบบที่ดีขึ้น [12] ผลที่ตามมาก็คือว่ามันเป็น
เทรนด์สำหรับหลาย บริษัท ในการจัดเก็บจำนวนมากมายหลาย
ประเภทของข้อมูล: ข้อมูลเครือข่ายทางสังคม, ข้อมูลการดูแลสุขภาพทางการเงิน
ข้อมูลชีวเคมีและข้อมูลทางพันธุกรรมข้อมูลดาราศาสตร์ ฯลฯ
วาไรตี้ (ข้อมูลในหลายรูปแบบ) ข้อมูลเหล่านี้ไม่ได้มี
โครงสร้างพื้นฐานและไม่ค่อยนำเสนอตัวเองในทำเลที่ดีเลิศ
แบบฟอร์มการสั่งซื้อและพร้อมสำหรับการประมวลผล [12] อันที่จริงแล้วข้อมูลดังกล่าวจะมีโครงสร้างสูง (ข้อมูลจากเชิงสัมพันธ์
ฐานข้อมูล) กึ่งโครงสร้าง (บันทึกการใช้เว็บฟีดสื่อสังคมดิบ
ฟีดโดยตรงจากแหล่งเซ็นเซอร์, อีเมล์, ฯลฯ ) หรือไม่มีโครงสร้าง
(วิดีโอภาพนิ่งเสียงคลิก ) [12] อีก "วี" สำหรับแปรปรวน
สามารถเพิ่มความหลากหลายในการให้ความสำคัญกับความหมาย
หรือความแปรปรวนของความหมายในภาษาและการสื่อสาร
โปรโตคอล.
Velocity (ข้อมูลในการเคลื่อนไหว) ความเร็วที่เกี่ยวข้องกับการไหลของ
ข้อมูลการสร้างบันทึกที่มีโครงสร้างและความพร้อมสำหรับการเข้าถึง
และ delivery.3
จริงมันไม่ได้เป็นเพียงความเร็วของการเข้า
ข้อมูลที่มีปัญหา: มันเป็นไปได้ที่จะสตรีมอย่างรวดเร็วย้ายข้อมูล
ในการจัดเก็บจำนวนมากสำหรับการประมวลผลชุดต่อมา , ตัวอย่างเช่น.
ความสำคัญอยู่ในความเร็วของห่วงความคิดเห็นที่นำข้อมูล
จากการป้อนข้อมูลผ่านไปสู่การตัดสินใจ [12].
มูลค่า (ข้อมูลในไฮไลท์) คุณลักษณะนี้จะเป็นจุดประสงค์
ของเทคโนโลยีข้อมูลขนาดใหญ่ มุมมองนี้จะแสดงเป็นอย่างดีจาก
นานาชาติข้อมูล Corporation4 เมื่อบอกว่าบิ๊ก
สถาปัตยกรรมข้อมูลจะถูก "ออกแบบมาเพื่อดึงค่าทางเศรษฐกิจ
จากปริมาณมากของความหลากหลายของข้อมูลโดยการเปิดใช้
ความเร็วสูงจับภาพการค้นพบและ / หรือการวิเคราะห์" ค่านี้
ตกอยู่ในสองประเภท: การใช้การวิเคราะห์ (เปลี่ยน / สนับสนุน
การตัดสินใจของมนุษย์ค้นพบความต้องการแบ่งกลุ่มประชากร
ในการปรับแต่งการกระทำ) และการเปิดใช้งานรูปแบบธุรกิจใหม่
. สินค้าและบริการ [12,10]
ความจริง (ข้อมูลในการสงสัย) ความจริงคือสิ่งที่เป็นไปตาม
ความจริงหรือความเป็นจริงหรือในระยะสั้นความถูกต้องแน่นอนแม่นยำ.
ความไม่แน่นอนอาจเกิดจากความไม่สอดคล้องกัน, รุ่น
ใกล้เคียง, งงงวยหลอกลวงฉ้อโกงซ้ำ,
ไม่สมบูรณ์สแปมและแฝง เนื่องจากความจริงผล
ที่ได้มาจากข้อมูลขนาดใหญ่ไม่สามารถพิสูจน์; แต่พวกเขาสามารถ
ได้รับมอบหมายความน่าจะเป็น.
สรุปการจัดการอย่างมีประสิทธิภาพกับข้อมูลขนาดใหญ่ต้องใช้อย่างใดอย่างหนึ่ง
ในการสร้างมูลค่ากับปริมาณความหลากหลายและความถูกต้องของข้อมูล
ในขณะที่มันยังคงอยู่ในการเคลื่อนไหว (ความเร็ว) ไม่เพียง แต่หลังจากที่
เหลือ [11] . และในตอนท้ายตามคำแนะนำ [13] นักวิทยาศาสตร์
ร่วมกันจะต้องรับมือกับข้อมูลขนาดใหญ่ที่มีคุณสมบัติทั้งหมดของ
การแปล กรุณารอสักครู่..