Modern data analysis faces a conflu

Modern data analysis faces a confluence of growing challenges.
First, data volumes are expanding dramatically, creating the need
to scale out across clusters of hundreds of commodity machines.
Second, such high scale increases the incidence of faults and stragglers
(slow tasks), complicating parallel database design. Third, the
complexity of data analysis has also grown: modern data analysis
employs sophisticated statistical methods, such as machine learning
algorithms, that go well beyond the roll-up and drill-down capabilities
of traditional enterprise data warehouse systems. Finally,
despite these increases in scale and complexity, users still expect to
be able to query data at interactive speeds.
To tackle the “big data” problem, two major lines of systems
have recently been explored. The first, consisting ofMapReduce [17]
Permission to make digital or hard copies of all or part of this work for
personal or classroom use is granted without fee provided that copies are
not made or distributed for profit or commercial advantage and that copies
bear this notice and the full citation on the first page. To copy otherwise, to
republish, to post on servers or to redistribute to lists, requires prior specific
permission and/or a fee.
SIGMOD’13, June 22–27, 2013, New York, New York, USA.
Copyright 2013 ACM 978-1-4503-2037-5/13/06 ...$15.00.
and various generalizations [22, 13], offers a fine-grained fault tolerance
model suitable for large clusters, where tasks on failed or
slow nodes can be deterministically re-executed on other nodes.
MapReduce is also fairly general: it has been shown to be able
to express many statistical and learning algorithms [15]. It also
easily supports unstructured data and “schema-on-read.” However,
MapReduce engines lack many of the features that make databases
efficient, and thus exhibit high latencies of tens of seconds to hours.
Even systems that have significantly optimizedMapReduce for SQL
queries, such as Google’s Tenzing [13], or that combine it with a
traditional database on each node, such as HadoopDB [4], report a
minimum latency of 10 seconds. As such, MapReduce approaches
have largely been dismissed for interactive-speed queries [31], and
even Google is developing new engines for such workloads [29].
Instead, most MPP analytic databases (e.g., Vertica, Greenplum,
Teradata) and several of the new low-latency engines proposed for
MapReduce environments (e.g., Google Dremel [29], Cloudera Impala
[1]) employ a coarser-grained recovery model, where an entire
query has to be resubmitted if a machine fails.1 This works well
for short queries where a retry is inexpensive, but faces significant
challenges for long queries as clusters scale up [4]. In addition,
these systems often lack the rich analytics functions that are easy
to implement in MapReduce, such as machine learning and graph
algorithms. Furthermore, while it may be possible to implement
some of these functions using UDFs, these algorithms are often expensive,
exacerbating the need for fault and straggler recovery for
long queries. Thus, most organizations tend to use other systems
alongside MPP databases to perform complex analytics.
To provide an effective environment for big data analysis

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

วิเคราะห์ข้อมูลที่ทันสมัยหันหน้าบรรจบของความท้าทายในการเจริญเติบโตครั้งแรก ปริมาณข้อมูลจะขยายอย่างมาก สร้างความต้องการขนาดออกข้ามคลัสเตอร์หลายร้อยชุดเครื่องจักรสอง มาตราส่วนดังกล่าวสูงเพิ่มอุบัติการณ์ของ stragglers และข้อบกพร่อง(ช้างาน), complicating ออกแบบฐานข้อมูลพร้อมกัน สาม การนอกจากนี้ยังมีพัฒนาความซับซ้อนของการวิเคราะห์ข้อมูล: วิเคราะห์ข้อมูลที่ทันสมัยใช้ซับซ้อนสถิติวิธี เช่นการเรียนรู้ของเครื่องอัลกอริทึม ที่เกินความสามารถในการสะสม และลึกดีของระบบคลังข้อมูลองค์กรแบบดั้งเดิม สุดท้ายแม้เหล่านี้เพิ่มขึ้นในขนาดและความซับซ้อน ผู้ใช้ยังคงคาดว่าจะสามารถสอบถามข้อมูลที่ความเร็วในการโต้ตอบเล่นงานปัญหา "ใหญ่ข้อมูล" สองบรรทัดหลักของระบบมีล่ารับอุดม OfMapReduce แรก ประกอบด้วย [17]สิทธิ์ในการทำดิจิตอลหรือสิ่งพิมพ์ทั้งหมดหรือส่วนหนึ่งของงานนี้ใช้ส่วนตัวหรือห้องเรียนได้รับ โดยไม่มีค่าธรรมเนียมที่มีสำเนาไม่ทำ หรือกระจายกำไร หรือประโยชน์ทางการค้า และสำเนาที่หมีนี้ประกาศและอ้างอิงเต็มหน้าแรก การคัดลอกอื่น การประกาศใหม่ การลงรายการบัญชีบนเซิร์ฟเวอร์ หรือกระจายไปยังรายการ ต้องการเฉพาะก่อนสิทธิ์และ/หรือค่าธรรมเนียมSIGMOD'13, 22-27 มิถุนายน 2556 นิวยอร์ก นิวยอร์ก สหรัฐอเมริกาลิขสิทธิ์ปี 2013 พลอากาศ 978-1-4503-2037-5/13/06... $15.00และการยอมรับข้อบกพร่องของทรายแป้งละเอียด generalizations ต่าง ๆ [22, 13],เหมาะสำหรับคลัสเตอร์ขนาดใหญ่ ที่ล้มเหลวของงานในรูปแบบ หรือโหนดที่ช้าสามารถ deterministically ดำเนินการใหม่อีกครั้งบนโหนอื่น ๆMapReduce เป็นธรรมทั่วไป: การแสดงสามารถแสดงในทางสถิติ และเรียนอัลกอริทึม [15] มันยังได้สนับสนุนข้อมูลที่ไม่มีโครงสร้างและ "แบบแผนในอ่าน" อย่างไรก็ตามเครื่องยนต์ MapReduce ขาดหลายคุณลักษณะที่ทำให้ฐานข้อมูลมีประสิทธิภาพ จัดเวลาแฝงที่สูงของสิบวินาทีชั่วโมงดัง นั้นแม้แต่ระบบที่มี optimizedMapReduce มากสำหรับ SQLสอบถาม เช่นเทนซิของ Google [13], หรือที่รวมกับการฐานข้อมูลดั้งเดิมบนแต่ละโหน เช่น HadoopDB [4], รายงานการเวลาแฝงต่ำสุด 10 วินาที เช่น MapReduce ยื่นส่วนใหญ่ถูกไล่สำหรับแบบสอบถามแบบเร็ว [31], และแม้ Google จะพัฒนาเครื่องยนต์ใหม่เช่นเวิร์ก [29]แทน กลุ่มระบบฐานข้อมูลส่วนใหญ่ (เช่น Vertica, GreenplumTeradata) และหลายเครื่องยนต์เวลาแฝงต่ำใหม่ที่เสนอสภาพแวดล้อม MapReduce (เช่น Google Dremel [29] อิมพาลา Clouderaรูปแบบว่าจ้าง [1]) การกู้คืน coarser เม็ด ทั้งแบบสอบถามมีส่งถ้า fails.1 เครื่องนี้ทำงานได้ดีแบบสอบถามสั้น ๆ ไม่แพงลอง แต่หน้าอย่างมีนัยสำคัญความท้าทายสำหรับแบบสอบถามยาวเป็นคลัสเตอร์ขนาดขึ้น [4] นอกจากนี้ระบบเหล่านี้มักขาดฟังก์ชันวิเคราะห์รวยที่ง่ายใช้ใน MapReduce การเรียนรู้ของเครื่องและกราฟอัลกอริทึมการ นอกจากนี้ ขณะที่อาจมีการใช้ฟังก์ชันเหล่านี้ใช้ UDFs อัลกอริทึมเหล่านี้มักมีราคาแพงดีต้องการกู้คืนข้อบกพร่องและ straggler สำหรับลองสอบถาม ดังนั้น องค์กรส่วนใหญ่มักจะ ใช้ระบบอื่น ๆควบคู่ไปกับฐานข้อมูลกลุ่มการวิเคราะห์ที่ซับซ้อนเพื่อให้สภาพแวดล้อมที่มีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การวิเคราะห์ข้อมูลที่ทันสมัยใบหน้าบรรจบกันของความท้าทายที่เพิ่มมากขึ้น. ครั้งแรกปริมาณข้อมูลมีการขยายตัวขึ้นอย่างมากในการสร้างความจำเป็นในการที่จะไต่ไปทั่วกลุ่มของหลายร้อยเครื่องสินค้า. ประการที่สองระดับสูงเช่นการเพิ่มขึ้นของอัตราการเกิดความผิดพลาดและพลัดหลง(งานช้า) แทรกซ้อน การออกแบบฐานข้อมูลแบบขนาน ประการที่สามความซับซ้อนของการวิเคราะห์ข้อมูลยังเติบโต: การวิเคราะห์ข้อมูลที่ทันสมัยมีพนักงานวิธีการทางสถิติที่มีความซับซ้อนเช่นการเรียนรู้เครื่องขั้นตอนวิธีการที่ไปได้ดีเกินความสามารถม้วนขึ้นและเจาะลงขององค์กรระบบคลังข้อมูลแบบดั้งเดิม สุดท้ายแม้จะมีการเพิ่มขึ้นของเหล่านี้ในขนาดและความซับซ้อนของผู้ใช้ยังคงคาดหวังว่าจะสามารถที่จะสอบถามข้อมูลได้ที่ความเร็วโต้ตอบ. เพื่อแก้ไขปัญหา "ข้อมูลขนาดใหญ่" ปัญหาที่เกิดขึ้นทั้งสองสายที่สำคัญของระบบได้รับการสำรวจเมื่อเร็วๆ นี้ ครั้งแรกประกอบด้วย ofMapReduce [17] ได้รับอนุญาตให้ทำสำเนาดิจิตอลหรือหนักของทั้งหมดหรือบางส่วนของการทำงานในการนี้การใช้งานส่วนตัวหรือห้องเรียนจะได้รับโดยไม่เสียค่าธรรมเนียมให้สำเนาจะไม่ได้ทำหรือแจกจ่ายเพื่อหากำไรหรือประโยชน์ในเชิงพาณิชย์และที่สำเนาแบกประกาศนี้และอ้างอิงเต็มรูปแบบบนหน้าแรก ในการคัดลอกอย่างอื่นในการเผยแพร่โพสต์บนเซิร์ฟเวอร์หรือเพื่อแจกจ่ายไปยังรายการที่ต้องการที่เฉพาะเจาะจงก่อนได้รับอนุญาตและ/ หรือค่าธรรมเนียม. SIGMOD'13, 22-27 มิถุนายน 2013, New York, New York, USA. ลิขสิทธิ์ 2013 ACM 978 -1-4503-2037-5 / 13/06 ... $ 15.00. และภาพรวมต่างๆ [22 13], มีความผิดที่ละเอียดความอดทนแบบที่เหมาะสมสำหรับกลุ่มขนาดใหญ่ที่เกี่ยวกับงานที่ล้มเหลวหรือโหนดช้าสามารถdeterministically อีกครั้ง . -executed บนโหนอื่น ๆMapReduce ยังเป็นธรรมโดยทั่วไป: มันได้รับการแสดงที่จะสามารถที่จะแสดงขั้นตอนวิธีการทางสถิติและการเรียนรู้จำนวนมาก[15] นอกจากนี้ยังได้อย่างง่ายดายสนับสนุนข้อมูลที่ไม่มีโครงสร้างและ "คีมาเมื่ออ่าน." แต่เครื่องมือMapReduce ขาดหลายคุณสมบัติที่ทำให้ฐานข้อมูลที่มีประสิทธิภาพและทำให้แสดงศักยภาพสูงของหลายสิบวินาทีเพื่อชม. ระบบแม้ที่มีอย่างมีนัยสำคัญ optimizedMapReduce สำหรับ SQL คำสั่ง เช่น Google ของซิง [13] หรือว่ารวมกับฐานข้อมูลแบบดั้งเดิมในแต่ละโหนดเช่นHadoopDB [4] รายงานความล่าช้าอย่างน้อย10 วินาที เช่นวิธีการ MapReduce ส่วนใหญ่ได้รับการยอมรับสำหรับการค้นหาแบบโต้ตอบความเร็ว [31] และแม้กระทั่งGoogle มีการพัฒนาเครื่องยนต์ใหม่สำหรับงานดังกล่าว [29]. แต่ส่วนใหญ่ฐานข้อมูลการวิเคราะห์เอ็มพีพี (เช่น Vertica, Greenplum, Teradata) และอีกหลาย เครื่องมือ latency ต่ำใหม่ที่เสนอสำหรับสภาพแวดล้อมMapReduce (เช่น Google Dremel [29], Cloudera Impala [1]) จ้างรูปแบบการกู้คืนหยาบละเอียดที่ทั้งแบบสอบถามจะต้องมีการส่งอีกครั้งถ้าเครื่องfails.1 นี้ทำงานได้ดีสำหรับคำสั่งสั้น ๆ ที่มีราคาไม่แพงลองใหม่อีกครั้ง แต่ใบหน้าอย่างมีนัยสำคัญความท้าทายสำหรับการค้นหาตราบใดที่กลุ่มระดับขึ้น[4] นอกจากนี้ระบบเหล่านี้มักจะขาดฟังก์ชั่นการวิเคราะห์ที่อุดมไปด้วยเป็นเรื่องง่ายที่จะใช้ในMapReduce เช่นการเรียนรู้เครื่องและกราฟขั้นตอนวิธีการ นอกจากนี้ในขณะที่มันอาจเป็นไปได้ที่จะใช้บางส่วนของฟังก์ชั่นเหล่านี้โดยใช้ UDF ของขั้นตอนวิธีการเหล่านี้มักจะแพง, รุนแรงความจำเป็นในการกู้คืนความผิดและล้าหลังสำหรับคำสั่งยาว ดังนั้นองค์กรส่วนใหญ่มักจะใช้ระบบอื่น ๆควบคู่ไปกับเอ็มพีพีฐานข้อมูลในการดำเนินการวิเคราะห์ที่ซับซ้อน. เพื่อให้สภาพแวดล้อมที่มีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การวิเคราะห์ข้อมูลที่ทันสมัยใบหน้าบรรจบของเติบโตท้าทาย .
ครั้งแรก ปริมาณข้อมูลมีการขยายตัวอย่างรวดเร็ว การสร้างความต้องการ
แบบข้ามกลุ่มของหลายร้อยเครื่องสินค้า .
2 เช่นสูงขนาดเพิ่มอุบัติการณ์ของความผิด และพลัดหลง
( งานช้า ) , complicating การออกแบบระบบฐานข้อมูลแบบขนาน 3
ความซับซ้อนของการวิเคราะห์ข้อมูลยังเติบโต :
การวิเคราะห์ข้อมูลที่ทันสมัยใช้วิธีการทางสถิติที่ซับซ้อน เช่น เครื่องเรียน
อัลกอริทึม ที่ไปได้ดีเกินม้วนขึ้นและเจาะลึกความสามารถ
ของระบบคลังข้อมูลองค์กรแบบดั้งเดิม ในที่สุด
แม้เหล่านี้เพิ่มขึ้นในขนาดและความซับซ้อน ผู้ใช้ยังคงคาดหวัง

สามารถสอบถามข้อมูลที่ความเร็วโต้ตอบ .
เล่นงาน " ข้อมูล " ปัญหาใหญ่สองสายหลักของระบบ
เมื่อไม่นานมานี้มีการค้นพบ แรก ประกอบด้วย ofmapreduce [ 17 ]
อนุญาตให้สำเนาดิจิตอลหรือฮาร์ดดิสก์ทั้งหมดหรือบางส่วนของงานนี้ สำหรับใช้ในชั้นเรียน
ส่วนบุคคลหรือได้รับโดยไม่เสียค่าธรรมเนียมให้เสมือน
ไม่ได้หรือแจกจ่ายเพื่อหวังผลกำไรหรือการค้าประโยชน์และสําเนาที่
หมีนี้สังเกตเห็นและเต็มรูปแบบการอ้างอิงในหน้าแรก เพื่อคัดลอกหรือเผยแพร่

, ,การลงรายการบัญชีบนเซิร์ฟเวอร์หรือเพื่อแจกจ่ายไปยังรายการที่ต้องการก่อนได้รับอนุญาตเฉพาะและ / หรือค่า
.
sigmod 13 มิถุนายน 22 – 27 , 2013 , นิวยอร์ก , นิวยอร์ก , สหรัฐอเมริกา 978-1-4503-2037-5
ลิขสิทธิ์ 2013 ACM / 13 / 06 . . . . . . . $ 15.00 .
แล้วทั่วไปต่างๆ [ 13 ] เสนอ 22 อย่างละเอียดความผิดความอดทน
แบบจำลองที่เหมาะสมสำหรับกลุ่มขนาดใหญ่ที่งาน
ล้มเหลวหรือโหนดช้าจะ deterministically จะดำเนินการบนโหนอื่น ๆ
mapreduce ยังเป็นที่ค่อนข้างทั่วไป : มันได้รับการแสดงเพื่อให้สามารถให้บริการมากมาย
สถิติและอัลกอริทึมการเรียนรู้ [ 15 ] มันยังสามารถรองรับข้อมูลที่ไม่มีโครงสร้าง และ "
มาอ่าน . . . " อย่างไรก็ตาม ,
mapreduce เครื่องยนต์ขาดหลายคุณสมบัติที่ทำให้ฐานข้อมูล
มีประสิทธิภาพและมีสูงจึงเกิดนับวินาทีชั่วโมง .
แม้ระบบที่แตกต่างกัน optimizedmapreduce สำหรับแบบสอบถาม SQL
เช่น Google ของเทนซิง [ 13 ] หรือว่ารวมกับ
ฐานข้อมูลแบบดั้งเดิมในแต่ละโหนด เช่น hadoopdb [ 4 ] , รายงาน
( อย่างน้อย 10 วินาที เช่น mapreduce แนวทาง
ส่วนใหญ่ถูกไล่ออกสำหรับการโต้ตอบความเร็วแบบสอบถาม [ 31 ] ,
แม้แต่ Google มีการพัฒนาเครื่องยนต์ใหม่เช่นงาน [ 29 ] .
แทนMPP ฐานข้อมูลเชิงวิเคราะห์มากที่สุด ( เช่น ฐานองค์ประกอบ
, , Teradata ) และหลายเครื่องมือสำหรับการนำเสนอศักยภาพต่ำใหม่
mapreduce สภาพแวดล้อม ( เช่น Google dremel [ 29 ] cloudera อิมพาลา
[ 1 ] ) จ้างชนิดเม็ดรูปแบบการกู้คืนซึ่งเป็นแบบสอบถามทั้งหมด
ต้อง resubmitted ถ้าเครื่องล้มเหลว 1 งานนี้ก็สั้น ๆแบบสอบถามที่อีกครั้ง

แต่ใบหน้าที่สำคัญราคาไม่แพงความท้าทายต่างๆ ยาวเป็นกระจุกขนาด [ 4 ] นอกจากนี้ ระบบเหล่านี้มักจะขาด

รวยวิเคราะห์ฟังก์ชันที่ง่ายเพื่อใช้ใน mapreduce เช่นการเรียนรู้ของเครื่องและขั้นตอนวิธีกราฟ

นอกจากนี้ ในขณะที่มันอาจเป็นไปได้ที่จะใช้บางส่วนของเหล่านี้ฟังก์ชั่นการใช้ Udf ทาง
ขั้นตอนวิธีการเหล่านี้มักจะมีราคาแพง
รุนแรงต้องหลงทางผิดและการกู้คืนสำหรับ
ลองสอบถาม ดังนั้น องค์กรส่วนใหญ่มักจะใช้ร่วมกับฐานข้อมูล MPP
ระบบอื่น ๆเพื่อดำเนินการวิเคราะห์ที่ซับซ้อน .
เพื่อสร้างสภาพแวดล้อมที่มีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูลใหญ่

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.