Large-scale analytical data process

Large-scale analytical data processing has become widespread
in Web companies and across industries, not least
due to low-cost storage that enabled collecting vast amounts
of business-critical data. Putting this data at the fingertips
of analysts and engineers has grown increasingly important;
interactive response times often make a qualitative
difference in data exploration, monitoring, online customer
support,
rapid prototyping, debugging of data pipelines,
and other tasks.
Performing interactive data analysis at scale demands a
high degree of parallelism. For example, reading a terabyte
of compressed data from secondary storage in 1 s would
require more than 10,000 commodity disks. Similarly,
CPU-intensive queries may need to run on thousands of
cores to complete within seconds. At Google, massively
parallel computing is done using shared clusters of commodity
machines.5 A cluster typically hosts a multitude of
distributed applications that share resources, have widely
varying workloads, and run on machines with different
hardware parameters. An individual worker in a distributed
application may take much longer to execute a given
task than others
or may never complete due to failures or
preemption by the cluster management system. Hence,
dealing with stragglers and failures is essential for achieving
fast execution and fault tolerance.
The data used in Web and scientific computing are often
non-relational. Hence, a flexible data model is essential
in these domains. Data structures used in programming
languages,
messages exchanged by distributed systems,
structured documents, etc., lend themselves
naturally to
a nested representation. Normalizing and recombining
such data at Web scale is usually prohibitive. A nested
data model underlies most of the structured data processing
at Google22 and reportedly at other major Web
companies.
This paper describes a system called Dremela that supports
interactive analysis of very large datasets over shared
clusters of commodity machines. Unlike traditional databases,
it is capable of operating on in situ nested data. In situ
refers to the ability to access data “in place,” for example, in
a distributed file system (like Google File System (GFS)14) or
another storage layer (e.g., Bigtable9). Dremel can execute
many queries over such data that would ordinarily require
a sequence of MapReduce (MR12) jobs, but at a fraction of
the execution time. Dremel is not intended as a replacement
for MR and is often used in conjunction with it to
analyze outputs of MR pipelines or rapidly prototype larger
computations.
Dremel has been in production since 2006 and has
thousands of users within Google. Multiple instances of
Dremel are deployed in the company, ranging from tens to
thousands of nodes. Examples of system usage include the
following:

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ประมวลผลข้อมูลการวิเคราะห์ขนาดใหญ่ได้กลายเป็นที่แพร่หลายในเว็บบริษัท และ อุตสาหกรรม ไม่น้อยเนื่องจากจัดเก็บต้นทุนต่ำที่เปิดใช้งานการเก็บเงินมากมายข้อมูลธุรกิจที่สำคัญ ทำให้ข้อมูลนี้กับวิศวกรและนักวิเคราะห์ได้เติบโตขึ้นเรื่อย ๆ สำคัญเวลาการตอบสนองโต้ตอบมักจะทำเป็นเชิงคุณภาพความแตกต่างในการสำรวจข้อมูล ตรวจสอบ ออนไลน์ลูกค้าสนับสนุนต้นแบบอย่างรวดเร็ว ตรวจแก้จุดบกพร่องของท่อส่งข้อมูลและงานอื่น ๆทำการวิเคราะห์ข้อมูลแบบโต้ตอบที่อัตราความต้องการระดับสูงของ parallelism ตัวอย่าง อ่านเป็นเทราไบต์บีบอัดข้อมูลจากการเก็บข้อมูลสำรองใน 1 s จะต้องการมากกว่า 10000 ชุดดิสก์ ในทำนองเดียวกันสอบถาม cpu สูงอาจจำเป็นต้องรันบนพันแกนจะเสร็จสมบูรณ์ภายในวินาที ที่ Google อย่างหนาแน่นแบบขนานเป็นการใช้งานใช้ทำร่วมกันของชุดmachines.5 A คลัสเตอร์โดยทั่วไปได้หลากหลายมีการกระจายโปรแกรมประยุกต์ที่ใช้ร่วมกันทรัพยากร อย่างกว้างขวางปริมาณงานแตกต่างกัน และใช้งานบนเครื่องพร้อมพารามิเตอร์ของฮาร์ดแวร์ ผู้ปฏิบัติงานแต่ละตัวในการกระจายโปรแกรมประยุกต์อาจใช้เวลานานกว่าจะดำเนินการกำหนดงานอื่น ๆหรืออาจไม่สมบูรณ์เนื่องจากความล้มเหลว หรือpreemption โดยระบบการจัดการของคลัสเตอร์ ดังนั้นจัดการกับ stragglers และความล้มเหลวเป็นสิ่งจำเป็นสำหรับการบรรลุเป้าหมายอย่างรวดเร็วการดำเนินการและข้อบกพร่องยอมรับข้อมูลที่ใช้ในเว็บและการคำนวณทางวิทยาศาสตร์มักไม่เชิง ดังนั้น แบบยืดหยุ่นเป็นสิ่งจำเป็นในโดเมนเหล่านี้ โครงสร้างข้อมูลที่ใช้ในการเขียนโปรแกรมภาษาข้อความที่แลกเปลี่ยน โดยระบบกระจายโครงสร้างเอกสาร ฯลฯ ยืมตัวไปตามธรรมชาติแสดงซ้อนกันอยู่ Normalizing และ recombiningข้อมูลดังกล่าวในมาตราส่วนเว็บมักจะห้ามปรามได้ การซ้อนกันแบบจำลองข้อมูล underlies ส่วนใหญ่ของการประมวลผลข้อมูลโครงสร้างGoogle22 และรายงาน ที่เว็บหลักอื่น ๆบริษัทเอกสารนี้อธิบายระบบที่เรียกว่า Dremela ที่สนับสนุนร่วมกันวิเคราะห์แบบโต้ตอบของ datasets ขนาดใหญ่กว่ากลุ่มสินค้าเครื่องจักร ซึ่งแตกต่างจากฐานข้อมูลดั้งเดิมความสามารถในการทำงานบนข้อมูลใน situ ซ้อนกันได้ ในซิหมายถึงความสามารถในการเข้าถึงข้อมูล "ใน"สถานที่ เช่น ในระบบแฟ้มแบบกระจาย (เช่น Google แฟ้มระบบ (GFS) 14) หรือชั้นจัดเก็บอื่น (เช่น Bigtable9) Dremel สามารถดำเนินแบบสอบถามจำนวนมากผ่านข้อมูลดังกล่าวได้ตามปกติลำดับงาน MapReduce (MR12) แต่ที่เวลาดำเนินการ Dremel ไม่ได้มีไว้แทนสำหรับนาย และมักใช้ร่วมกับการวิเคราะห์แสดงผลนายท่อหรืออย่างรวดเร็วต้นใหญ่ประมวลผลDremel มีผลิตตั้งแต่ปี 2006 และมีหลายพันของผู้ใช้ใน Google อินสแตนซ์Dremel ใช้งานในบริษัท ตั้งแต่หลักสิบไปพันโหน ตัวอย่างของการใช้งานระบบได้แก่การต่อไปนี้:

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ขนาดใหญ่การประมวลผลข้อมูลการวิเคราะห์ที่ได้กลายเป็นที่แพร่หลาย
ในเว็บและ บริษัท ในอุตสาหกรรมไม่น้อย
เนื่องจากการจัดเก็บต้นทุนต่ำที่เปิดใช้งานการเก็บรวบรวมจำนวนมหาศาล
ของข้อมูลทางธุรกิจที่สำคัญ ใส่ข้อมูลที่ปลายนิ้ว
ของนักวิเคราะห์และวิศวกรที่มีการเติบโตที่สำคัญมากขึ้น;
เวลาการตอบสนองแบบโต้ตอบมักจะทำให้คุณภาพ
ความแตกต่างในการสำรวจข้อมูลการตรวจสอบลูกค้าออนไลน์
สนับสนุน
การสร้างต้นแบบอย่างรวดเร็ว, การแก้จุดบกพร่องของท่อข้อมูล
และงานอื่น ๆ .
การแสดงการวิเคราะห์ข้อมูลแบบโต้ตอบที่ ขนาดความต้องการ
ระดับสูงของความเท่าเทียม ยกตัวอย่างเช่นการอ่านเทราไบต์
ของการบีบอัดข้อมูลจากการจัดเก็บมัธยมใน 1 วินาทีจะ
ต้องมากกว่า 10,000 แผ่นสินค้าโภคภัณฑ์ ในทำนองเดียวกัน
คำสั่ง CPU สูงอาจจำเป็นต้องใช้ในพันของ
แกนที่จะเสร็จสมบูรณ์ภายในไม่กี่วินาที ที่ Google อย่างหนาแน่น
การคำนวณแบบขนานจะกระทำโดยใช้กลุ่มที่ใช้ร่วมกันของสินค้า
machines.5 กลุ่มมักจะเป็นเจ้าภาพจัดงานหลากหลายของ
โปรแกรมการกระจายที่ใช้ทรัพยากรร่วมกันได้อย่างกว้างขวาง
ที่แตกต่างกันปริมาณงานและทำงานบนเครื่องที่มีแตกต่างกัน
พารามิเตอร์ฮาร์ดแวร์ ผู้ปฏิบัติงานของแต่ละบุคคลในการกระจาย
การประยุกต์ใช้อาจใช้เวลานานมากในการดำเนินการรับ
งานกว่าคนอื่น ๆ
หรืออาจจะไม่สมบูรณ์เนื่องจากความล้มเหลวหรือ
ใบจองโดยระบบการจัดการกลุ่ม ดังนั้น
การจัดการกับพลัดหลงและความล้มเหลวเป็นสิ่งจำเป็นเพื่อให้บรรลุ
การดำเนินการอย่างรวดเร็วและมีความอดทนความผิด.
ข้อมูลที่ใช้ในเว็บและการคำนวณทางวิทยาศาสตร์มักจะ
ไม่สัมพันธ์ ดังนั้นรูปแบบข้อมูลที่มีความยืดหยุ่นเป็นสิ่งจำเป็น
ในโดเมนเหล่านี้ โครงสร้างข้อมูลที่ใช้ในการเขียนโปรแกรม
ภาษา
ข้อความแลกเปลี่ยนโดยระบบการกระจาย
เอกสารที่มีโครงสร้างและอื่น ๆ ยืมตัว
ตามธรรมชาติที่
เป็นตัวแทนที่ซ้อนกัน normalizing และ recombining
ข้อมูลดังกล่าวในระดับเว็บมักจะห้ามปราม ที่ซ้อนกัน
แบบข้อมูลรองรับมากที่สุดของการประมวลผลข้อมูลที่มีโครงสร้าง
ที่ Google22 และมีรายงานที่เว็บอื่น ๆ ที่สำคัญ
บริษัท .
กระดาษนี้จะอธิบายระบบที่เรียกว่า Dremela ที่สนับสนุน
การวิเคราะห์การโต้ตอบของชุดข้อมูลขนาดใหญ่มากในช่วงที่ใช้ร่วมกัน
กลุ่มของเครื่องสินค้าโภคภัณฑ์ ซึ่งแตกต่างจากฐานข้อมูลแบบดั้งเดิม
มันเป็นความสามารถในการดำเนินงานเกี่ยวกับข้อมูลในแหล่งกำเนิดที่ซ้อนกัน ในแหล่งกำเนิด
หมายถึงความสามารถในการเข้าถึงข้อมูล "ในสถานที่" ตัวอย่างเช่นใน
ระบบไฟล์แบบกระจาย (เช่นระบบไฟล์ของ Google (GFS) 14) หรือ
ชั้นจัดเก็บข้อมูลอื่น (เช่น Bigtable9) Dremel สามารถรัน
คำสั่งหลายข้อมูลดังกล่าวที่จะต้องปกติ
ลำดับของ MapReduce (MR12) งาน แต่ในส่วนของ
เวลาดำเนินการ Dremel ไม่ได้มีไว้แทน
สำหรับนายและมักจะถูกนำมาใช้ร่วมกับมันเพื่อ
วิเคราะห์ผลของท่อ MR หรือต้นแบบที่มีขนาดใหญ่อย่างรวดเร็ว
คำนวณ.
Dremel ได้รับในการผลิตตั้งแต่ปี 2006 และมี
หลายพันคนใน Google กรณีหลาย
Dremel จะนำไปใช้ใน บริษัท ตั้งแต่นับ
พันของโหนด ตัวอย่างของการใช้งานระบบรวมถึง
ต่อไปนี้:

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

วิเคราะห์ประมวลผลข้อมูลขนาดใหญ่ได้กลายเป็นที่แพร่หลายใน บริษัท เว็บ และ ข้ามอุตสาหกรรม

ไม่ใช่น้อย เนื่องจากต้นทุนต่ำ กระเป๋าที่สามารถเก็บรวบรวมจํานวนมหาศาล
ของข้อมูลทางธุรกิจที่สำคัญ . การใส่ข้อมูลที่ปลายนิ้ว
นักวิเคราะห์ และวิศวกรมีการเติบโตที่สำคัญมากขึ้น ;
โต้ตอบการตอบสนองครั้งมักจะสร้างความแตกต่างเชิงคุณภาพ
ในการสำรวจข้อมูล การติดตามตรวจสอบออนไลน์สนับสนุนลูกค้า

สร้างต้นแบบอย่างรวดเร็ว , การแก้จุดบกพร่องของระบบข้อมูล และงานอื่น ๆ
.
การแสดงการวิเคราะห์ข้อมูลแบบโต้ตอบในระดับความต้องการ
ระดับสูงของขนาน . ตัวอย่างเช่น การอ่านสำหรับ
อัดจากการจัดเก็บข้อมูลทุติยภูมิใน S
1 จะต้องมากกว่า 10 , 000 ชุด ดิสก์ โดย
CPU เข้มแบบสอบถามอาจต้องใช้หลายพัน
แกนจะเสร็จสมบูรณ์ภายในไม่กี่วินาที ที่ Google มากมายก่ายกอง
การคำนวณแบบขนานใช้ร่วมกันกลุ่มเครื่องจักรสินค้า
5 กลุ่มโดยทั่วไปโฮสต์ความหลากหลายของการกระจายการแบ่งปันทรัพยากร

มีงานแตกต่างกันอย่างกว้างขวาง และใช้เครื่องจักรที่มีค่าฮาร์ดแวร์ที่แตกต่าง

งานบุคคลในการกระจาย
ใบสมัครอาจใช้เวลานานเพื่อดำเนินการให้
งานมากกว่าผู้อื่น
หรืออาจไม่สมบูรณ์เนื่องจากความล้มเหลวหรือ
ใบจอง โดยระบบการจัดการคลัสเตอร์ . ดังนั้น
การจัดการกับพลัดหลงและความล้มเหลวเป็นสิ่งที่จำเป็นเพื่อให้บรรลุการยอมรับความผิดและรวดเร็ว
.
ข้อมูลที่ใช้ในเว็บและการคำนวณทางวิทยาศาสตร์มักจะ
ไม่สัมพันธ์ ดังนั้น รูปแบบข้อมูลที่มีความยืดหยุ่นเป็นสิ่งจำเป็น
ในโดเมนเหล่านี้ โครงสร้างข้อมูลที่ใช้ในการเขียนโปรแกรมภาษา

,ข้อความแลกเปลี่ยนโดยการกระจายระบบ
โครงสร้างเอกสาร ฯลฯ ยืมตัวเอง

เป็นแบบซ้อนกัน ธรรมชาติของการเป็นตัวแทน normalizing recombining
ข้อมูลดังกล่าวในเว็บและขนาดมักจะห้ามปราม เป็นแบบซ้อนกัน
ข้อมูลแบบแผ่นอยู่มากที่สุดของโครงสร้างการประมวลผลข้อมูลและรายงานที่บริษัทที่ google22

เว็บหลักอื่น ๆ บทความนี้อธิบายถึงระบบที่เรียกว่า dremela
ที่สนับสนุนแบบโต้ตอบการวิเคราะห์ข้อมูลมีขนาดใหญ่มาก มากกว่าที่แบ่งปัน
กลุ่มเครื่องจักรสินค้า ซึ่งแตกต่างจากฐานข้อมูลแบบดั้งเดิม ,
มันสามารถผ่าตัดใน situ ซ้อนข้อมูล ในแหล่งกำเนิด
หมายถึงความสามารถในการเข้าถึงข้อมูล " ในสถานที่ " ตัวอย่างเช่นในการกระจายแฟ้มระบบ ( เช่นระบบแฟ้ม Google ( GFS ) 14 ) หรือ
อีกกระเป๋าชั้น ( เช่น bigtable9 ) dremel สามารถรัน
สอบถามหลายเรื่องข้อมูลที่ตามปกติจะต้องมีการลำดับ mapreduce ( mr12 ) งาน แต่ในส่วนของ
การประหารชีวิตครั้ง dremel ไม่ได้มีไว้แทน
สำหรับคุณ และมักใช้ร่วมกับมัน เพื่อวิเคราะห์ผลของนายท่อหรือ

วิธีการอย่างรวดเร็วต้นแบบขนาดใหญ่ .
dremel ได้รับในการผลิตตั้งแต่ปี 2006 และได้
นับพันของผู้ใช้ใน Googleหลายอินสแตนซ์ของ
dremel จะใช้ในบริษัท ตั้งแต่หลักสิบ

หลายพันโหนด ตัวอย่างของการใช้ระบบรวม
ต่อไปนี้ :

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.