2. What is big data?
Manyika et al. define Big Data as “datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze”. Likewise, Davis and Patterson say “Big data is data too big to be handled and analyzed by traditional database protocols such as SQL”; and the same opinion is shared Both groups of authors previously mentioned go beyond the only size aspects of data when defining Big Data! Edd Dumbill in
explicitly conveys the multi-dimensionality of Big Data when adding that “the data is too big, moves too fast, or doesn’t fit the strictures of your database architectures”. This quotation allows us to see that extra characteristics should be added to large datasets to be considered as Big Data, or big size data as often found throughout the literature. Now it is assumed that size is not the only feature of Big Data. Many authors explicitly use the Three V’s (Volume, Variety and Velocity) to characterize Big Data. If the three V’s are largely found in the literature, many authors and institutes like IEEE focus on Big Data Value, Veracity and Visualization. This last “V” to notice how important it is to provide good tools to figure out data and analysis’ results.
Volume (Data in rest). The benefit gained from the ability to process large amounts of information is the main attraction of big data analytics. Having more data beats having better models . The consequence is that it is a trend for many companies to store vast amount of various sorts of data: social networks data, health care data, financial data, biochemistry and genetic data, astronomical data, etc.
Variety (Data in many forms). These data do not have a fixed structure and rarely present themselves in a perfectly ordered form and ready for processing [12]. Indeed, such data can be highly structured (data from relational databases), semi-structured (web logs, social media feeds, raw feed directly from a sensor source, email, etc.) or unstructured (video, still images, audio, clicks) . Another “V”, for Variability, can be added to variety to emphasize on semantics, or the variability of meaning in language and communication protocols.
Velocity (Data in motion). Velocity involves streams of data, structured records creation, and availability for access and delivery. Indeed it is not just the velocity of the incoming data that is the issue: it is possible to stream fast-moving data into bulk storage for later batch processing, for example. The importance lies in the speed of the feedback loop, taking data from input through to decision.
Value (Data in highlight). This feature is the purpose of Big Data technology. This view is well expressed by the International Data Corporation when saying that Big Data architectures are: “designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis”. This value falls into two categories: analytical use (replacing/supporting human decision, discovering needs, segmenting populations to customize actions) and enabling new business models, products and services.
Veracity (Data in doubt). Veracity is what is conformwith truth or fact, or in short, Accuracy, Certainty, Precision. Uncertainty can be caused by inconsistencies, model approximations, ambiguities, deception, fraud, duplication, incompleteness, spam and latency. Due to veracity, results derived from Big data cannot be proven; but they can be assigned a probability. To conclude, dealing effectively with Big Data requires one to create value against the volume, variety and veracity of data while it is still in motion (velocity), not just after it is at rest . And at the end, as recommended , scientists must jointly tackle Big Data with all its features.
2 . อะไรคือข้อมูลใหญ่manyika et al . กําหนดข้อมูลใหญ่เป็นข้อมูลที่มีขนาดเกินความสามารถของเครื่องมือซอฟต์แวร์ฐานข้อมูลทั่วไปเพื่อจับภาพ , จัดเก็บ , จัดการ และวิเคราะห์ " อนึ่ง เดวิส และ แพตเตอร์สันกล่าวว่า " ข้อมูลใหญ่ข้อมูลมากเกินไปที่จะจัดการ และวิเคราะห์โดยโปรแกรมฐานข้อมูลแบบดั้งเดิมเช่น SQL " และมีความเห็นร่วมกันทั้งกลุ่มของผู้เขียนกล่าวถึงก่อนหน้านี้นอกเหนือไปจากด้านเดียวของข้อมูลเมื่อมีการกำหนดขนาดข้อมูลใหญ่ ของ dumbill ในโดยสื่อหลาย dimensionality ใหญ่ข้อมูลเมื่อเพิ่มว่า " ข้อมูลที่มีขนาดใหญ่เกินไป รวดเร็วเกินไป หรือ ไม่เหมาะกับ ทบทวน ของสถาปัตยกรรมฐานข้อมูลของคุณ ใบเสนอราคานี้ช่วยให้เราเพื่อดูว่า ลักษณะพิเศษ ควรเพิ่มข้อมูลขนาดใหญ่จะถือว่าเป็นข้อมูลที่ใหญ่ หรือใหญ่ขนาดข้อมูลที่มักจะพบได้ตลอดทั้งวรรณกรรม ตอนนี้ก็ถือว่า ขนาดไม่ได้เป็นคุณลักษณะเฉพาะของข้อมูลใหญ่ ผู้เขียนหลายคนนี้ใช้ 3 V ( ระดับเสียงที่หลากหลายและความเร็ว ) ในลักษณะของข้อมูลใหญ่ ถ้า 3 V เป็นส่วนใหญ่พบในวรรณกรรม ผู้เขียนหลายสถาบัน เช่น สถาบันมุ่งเน้นข้อมูลค่าใหญ่จริงและการมองเห็น นี้ล่าสุด " วี " จะสังเกตเห็นว่ามันสำคัญเพื่อให้เครื่องมือที่ดีที่จะหาข้อมูล และการวิเคราะห์ผลปริมาณข้อมูลในส่วนที่เหลือ ) ผลประโยชน์ที่ได้รับจากความสามารถในการประมวลผลจำนวนมากของข้อมูลที่เป็นจุดดึงดูดหลักของการวิเคราะห์ข้อมูลใหญ่ มีข้อมูลเพิ่มเติมที่เต้นมีรุ่นที่ดีกว่า ผลคือ มันเป็นแนวโน้มสำหรับหลาย บริษัท ที่จะเก็บจำนวนเงินที่มากมายของประเภทต่างๆของข้อมูลที่เครือข่ายทางสังคม , การดูแลสุขภาพ ข้อมูลทางการเงิน และข้อมูลทางชีวเคมี , ดาราศาสตร์ข้อมูล ฯลฯความหลากหลาย ( ข้อมูลหลายรูปแบบ ) ข้อมูลเหล่านี้ไม่ได้มีโครงสร้างถาวรและไม่ค่อยนำเสนอตัวเองในรูปแบบสมบูรณ์ สั่งและพร้อมสำหรับการประมวลผล [ 12 ] จริงๆ ข้อมูลดังกล่าวจะเป็นโครงสร้างสูง ( ข้อมูลจากฐานข้อมูลเชิงสัมพันธ์ ) แบบกึ่งโครงสร้าง ( บันทึกการใช้เว็บสื่อสังคม อาหารสัตว์ วัตถุดิบอาหารสัตว์ได้โดยตรงจากเซ็นเซอร์แหล่งที่มา , อีเมล , ฯลฯ ) หรือที่ไม่มีโครงสร้าง ( วิดีโอ , ภาพนิ่ง , เสียง , การคลิก ) " วี " , ซึ่งสามารถเพิ่มความหลากหลายเพื่อเน้นความหมายหรือความแปรปรวนของความหมายในภาษาและการสื่อสารโปรโตคอลความเร็ว ( ข้อมูลในการเคลื่อนไหว ) ความเร็วเกี่ยวข้องกับกระแสของข้อมูลบันทึกการสร้างโครงสร้างและความพร้อมสำหรับการเข้าถึงและการส่งมอบ แน่นอนมันไม่ได้เป็นแค่ความเร็วของข้อมูลขาเข้าที่เป็นปัญหา : มันเป็นไปได้ที่จะสตรีมข้อมูลอย่างรวดเร็วในกลุ่มการจัดเก็บการประมวลผลชุดในภายหลัง ตัวอย่างเช่น ความสำคัญในความเร็วของการตอบรับ ห่วง เอาข้อมูลจากอินพุตผ่านการตัดสินใจค่า ( ข้อมูลในไฮไลท์ ) คุณลักษณะนี้เป็นจุดประสงค์ของเทคโนโลยีข้อมูลใหญ่ มุมมองนี้จะแสดงโดยคอร์ปอเรชั่นข้อมูลระหว่างประเทศ เมื่อบอกว่า สถาปัตยกรรมข้อมูลใหญ่ " ที่ออกแบบมาเพื่อประหยัดค่าสารสกัดจากขนาดใหญ่มาก ปริมาณของความหลากหลายของข้อมูล โดยเปิดใช้งานจับภาพความเร็วสูง การค้นพบ และ / หรือการวิเคราะห์ " ราคานี้แบ่งได้เป็นสองประเภท : ใช้วิเคราะห์ ( แทน / สนับสนุนการตัดสินใจของมนุษย์ได้ค้นพบความต้องการ กลุ่มประชากรที่จะปรับการกระทำ ) และเปิดโมเดลธุรกิจใหม่ สินค้าและบริการจริง ( ข้อมูลสงสัย ) คำพูดเป็นสิ่งที่ conformwith ความจริงหรือข้อเท็จจริง หรือในระยะสั้น , ความถูกต้อง , ความแน่นอน , ความละเอียด ความไม่แน่นอน อาจเกิดจากความไม่สอดคล้องกัน , รูปแบบการงงงวย , การหลอกลวง , การทุจริต ซ้ําซ้อน incompleteness สแปม และแฝงอยู่ เนื่องจากผลลัพธ์ที่ได้มาจากข้อมูลใหญ่จริงก็ไม่สามารถพิสูจน์ได้ แต่พวกเขาสามารถมอบหมายให้ความน่าจะเป็น โดยสรุป การจัดการอย่างมีประสิทธิภาพกับข้อมูลใหญ่ต้องหนึ่งที่จะสร้างคุณค่ากับระดับเสียงที่หลากหลายและความเป็นจริงของข้อมูลในขณะที่มันยังคงอยู่ในการเคลื่อนไหว ( ความเร็ว ) , ไม่เพียง แต่หลังจากที่มีการพัก และในตอนท้าย เป็น แนะนำ นักวิทยาศาสตร์ต้องเล่นงานใหญ่ข้อมูลที่มีคุณสมบัติทั้งหมดของ
การแปล กรุณารอสักครู่..