table is scanned independently and

table is scanned independently and tuples are pushed one at a time
into the DAG of operators) to all (only a Map task is required to
output the results into an HDFS file).
Given the above GroupBy query, SMS produces one of two different
plans. If the sales table is partitioned by YEAR(saleDate),
it produces the query plan in Fig. 2(b): this plan pushes the entire
query processing logic into the database layer. Only a Map task
is required to output results into an HDFS file. Otherwise, SMS
produces the query plan in Fig. 2(c) in which the database layer
partially aggregates data and eliminates the selection and group-by
operator used in the Map phase of the Hive generated query plan
(Fig. 2(a)). The final aggregation step in the Reduce phase of the
MapReduce job, however, is still required in order to merge partial
results from each node.
For join queries, Hive assumes that tables are not collocated.
Therefore, the Hive generated plan scans each table independently
and computes the join after repartitioning data by the join key. In
contrast, if the join key matches the database partitioning key, SMS
pushes the entire join sub-tree into the database layer.
So far, we only support filter, select (project) and aggregation
operators. Currently, the partitioning features supported by Hive
are extremely na¨ıve and do not support expression-based partitioning.
Therefore, we cannot detect if the sales table is partitioned
by YEAR(saleDate) or not, therefore we have to make the pessimistic
assumption that the data is not partitioned by this attribute.
The Hive build [15] we extended is a little buggy; as explained in
Section 6.2.5, it fails to execute the join task used in our benchmark,
even when running over HDFS tables3. However, we use the
SMS planner to automatically push SQL queries into HadoopDB’s
DBMS layer for all other benchmark queries presented in our experiments
for this paper.
5.3 Summary
HadoopDB does not replace Hadoop. Both systems coexist enabling
the analyst to choose the appropriate tools for a given dataset
and task. Through the performance benchmarks in the following
sections, we show that using an efficient database storage layer cuts
down on data processing time especially on tasks that require complex
query processing over structured data such as joins. We also
show that HadoopDB is able to take advantage of the fault-tolerance
and the ability to run on heterogeneous environments that comes
naturally with Hadoop-style systems.
6. BENCHMARKS
In this section we evaluate HadoopDB, comparing it with a
MapReduce implementation and two parallel database implementations,
using a benchmark first presented in [23]4. This
benchmark consists of five tasks. The first task is taken directly
from the original MapReduce paper [8] whose authors claim is
representative of common MR tasks. The next four tasks are
analytical queries designed to be representative of traditional
structured data analysis workloads that HadoopDB targets.
We ran our experiments on Amazon EC2 “large” instances (zone:
us-east-1b). Each instance has 7.5 GB memory, 4 EC2 Compute
Units (2 virtual cores), 850 GB instance storage (2 x 420 GB plus
10 GB root partition) and runs 64-bit platform Linux Fedora 8 OS.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ตารางการสแกนได้อย่างอิสระ และผลัก tuples ครั้งในพื้นที่ของผู้ประกอบการ) ทั้งหมด (เฉพาะงานแผนที่ถูกต้องผลผลิตผลลัพธ์ลงในแฟ้ม HDFS)SMS ให้สอบถาม GroupBy ข้าง สร้างหนึ่งสองแตกต่างกันแผนการ ถ้าตารางจะแบ่งพาร์ติชัน โดย YEAR(saleDate)จะสร้างแผนการสอบถามใน Fig. 2(b): แผนนี้ผลักดันทั้งหมดแบบสอบถามประมวลผลตรรกะในชั้นฐานข้อมูล เฉพาะงานแผนที่ต้องการผลผลิตผลลัพธ์ไปยังแฟ้ม HDFS มิฉะนั้น SMSสร้างแผนการสอบถามใน 2(c) Fig. ที่ชั้นของฐานข้อมูลรวมข้อมูลบางส่วน และกำจัดการเลือกและจัดกลุ่มตามดำเนินการที่ใช้ในระยะแผนที่ของกลุ่มที่สร้างแผนการสอบถาม(Fig. 2(a)) รวมสุดท้ายขั้นตอนในการลดระยะของการงาน MapReduce อย่างไรก็ตาม คือยังต้องเวียนบางส่วนผลลัพธ์จากแต่ละโหนดสำหรับการสอบถามรวม กลุ่มสมมติว่า ตารางจะไม่ collocatedดังนั้น กลุ่มสร้างแผนการสแกนแต่ละตารางได้อย่างอิสระและคำนวณการรวมหลัง repartitioning ข้อมูลโดยรวมคีย์ ในความแตกต่าง ถ้าคีย์รวมคีย์ SMS พาร์ทิชันฐานข้อมูลที่ตรงกับผลักดันแผนภูมิย่อยรวมทั้งในชั้นฐานข้อมูลเพื่อห่างไกล เราเพียงสนับสนุนตัวกรอง การเลือก (โครงการ) และการรวมตัวดำเนินการ ปัจจุบัน คุณลักษณะแบ่งพาร์ติชันที่สนับสนุนกลุ่มมี na¨ıve มาก และสนับสนุนใช้นิพจน์การพาร์ทิชันดังนั้น เราไม่สามารถตรวจพบถ้าตารางจะแบ่งพาร์ติชันโดย YEAR(saleDate) หรือ ไม่ ดังนั้น เราจะต้องทำการในเชิงลบสมมติฐานที่ว่า ข้อมูลไม่กั้น โดยแอตทริบิวต์นี้สร้างรัง [15] ที่เราขยายเป็นรถเล็กน้อย ตามที่อธิบายไว้ในส่วน 6.2.5 มันล้มเหลวในการดำเนินงานรวมที่ใช้ในมาตรฐานของเราเมื่อเรียกใช้งานบน HDFS tables3 อย่างไรก็ตาม เราใช้การวางแผน SMS อัตโนมัติเข็น SQL แบบสอบถามเป็นของ HadoopDBชั้นของ DBMS สำหรับแบบสอบถามมาตรฐานอื่น ๆ ทั้งหมดในการทดลองของเราสำหรับเอกสารนี้5.3 สรุปHadoopDB แทนอย่างไร Hadoop ทั้งสองระบบมีการเปิดใช้งานอยู่นักวิเคราะห์เพื่อเลือกเครื่องมือที่เหมาะสมสำหรับชุดข้อมูลที่กำหนดและงาน ผ่านเกณฑ์มาตรฐานประสิทธิภาพในต่อไปนี้ส่วน แสดงว่า ใช้ชั้นจัดเก็บฐานข้อมูลที่มีประสิทธิภาพการตัดลงเวลาการประมวลผลข้อมูลโดยเฉพาะอย่างยิ่งในงานที่ซับซ้อนประมวลผลผ่านโครงสร้างข้อมูลเช่นแบบสอบถามรวม เรายังแสดงว่า HadoopDB ได้ประโยชน์ของค่าเผื่อความบกพร่องและความสามารถในการทำงานในสภาพแวดล้อมที่แตกต่างกันที่มาธรรมชาติ มีลักษณะอย่างไร Hadoop ระบบ6. เกณฑ์มาตรฐานในส่วนนี้ เราประเมิน HadoopDB เปรียบเทียบด้วยการMapReduce ดำเนินและการใช้งานฐานข้อมูลแบบขนาน 2โดยใช้เกณฑ์มาตรฐานก่อน นำเสนอใน [23] 4 นี้เกณฑ์มาตรฐานประกอบด้วย 5 งาน เป็นดำเนินงานแรกโดยตรงจาก MapReduce เดิม เป็นกระดาษ [8] ผู้เขียนอ้างตัวแทนของนายงานทั่วไป งาน 4 ถัดไปวิเคราะห์แบบสอบถามที่ออกแบบมาเพื่อเป็นตัวแทนของเดิมโครงสร้างปริมาณงานวิเคราะห์ข้อมูลเป้าหมายที่ HadoopDBเราเรียกการทดลองของเราบน Amazon EC2 กรณี "ขนาดใหญ่" (โซน:เราตะวันออก-1b) แต่ละอินสแตนซ์ได้ 7.5 GB หน่วยความจำ คำนวณ EC2 4หน่วย (2 เสมือนแกน), จัดเก็บอินสแตนซ์ 850 GB (GB 2 x 420 บวก10 GB พาร์ทิชันราก) และ 64 บิตแพลตฟอร์ม Linux Fedora 8 OS ทำงาน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ตารางจะถูกสแกนอิสระและ tuples
จะผลักดันหนึ่งที่เวลาลงในDAG ของผู้ประกอบการ) ทั้งหมด
(เฉพาะงานแผนที่จะต้องส่งออกผลลงในไฟล์HDFS).
ได้รับการสอบถาม GroupBy ข้างต้น SMS
ผลิตหนึ่งในสองที่แตกต่างกันแผนการ. หากมีการแบ่งพาร์ติชันตารางการขายโดยปี (saleDate)
จะผลิตแผนแบบสอบถามในรูป 2 (b):
แผนนี้ผลักดันให้ทั้งประมวลผลแบบสอบถามตรรกะในชั้นฐานข้อมูล เฉพาะงานแผนที่จะต้องผลการส่งออกเป็นไฟล์ HDFS
มิฉะนั้น SMS
ผลิตแผนแบบสอบถามในรูป 2 (ค)
ที่ชั้นฐานข้อมูลบางส่วนที่รวบรวมข้อมูลและช่วยลดการเลือกและกลุ่มโดยผู้ประกอบการที่ใช้ในขั้นตอนการแผนที่ Hive สร้างแผนแบบสอบถาม (รูปที่ 2. (ก)) ขั้นตอนการรวมตัวสุดท้ายในการลดขั้นตอนของงาน MapReduce แต่ยังคงจำเป็นต้องใช้ในการสั่งซื้อที่จะผสานบางส่วนผลลัพธ์ที่ได้จากแต่ละโหนด. สำหรับการเข้าร่วมแบบสอบถาม Hive อนุมานว่าตารางจะไม่ collocated. ดังนั้นไฮฟ์สร้างแผนสแกนแต่ละตารางอิสระและคำนวณเข้าร่วมหลังจากที่ข้อมูลโดยการแบ่งพาร์คีย์เข้าร่วม ในทางตรงกันข้ามถ้าเข้าร่วมการแข่งขันที่สำคัญที่สำคัญแบ่งพาร์ทิชันฐานข้อมูล, SMS ผลักดันให้ทั้งเข้าร่วม sub ต้นไม้ในชั้นฐานข้อมูล. จนถึงขณะนี้เราเพียง แต่สนับสนุนกรองเลือก (โครงการ) และการรวมผู้ประกอบการ ปัจจุบันคุณลักษณะแบ่งพาร์ทิชันที่สนับสนุนโดยไฮฟ์มีความไร้เดียงสามากและไม่สนับสนุนการแบ่งการแสดงออกตาม. ดังนั้นเราจึงไม่สามารถตรวจสอบถ้าตารางการขายแบ่งพาร์ติชันโดยปี (saleDate) หรือไม่ดังนั้นเราจะต้องทำในแง่ร้ายสมมติฐานที่ว่า. ข้อมูลไม่ได้แบ่งพาร์ติชันโดยแอตทริบิวต์นี้รังสร้าง[15] เราขยายเป็นรถเล็ก ๆ น้อย ๆ ; ตามที่อธิบายไว้ในมาตรา 6.2.5 ก็ล้มเหลวในการดำเนินงานที่เข้าร่วมใช้ในมาตรฐานของเราแม้ในขณะที่การทำงานมากกว่าHDFS tables3 แต่เราใช้การวางแผนที่จะผลักดันการส่ง SMS แบบสอบถาม SQL โดยอัตโนมัติใน HadoopDB ของชั้นDBMS สำหรับการค้นหามาตรฐานอื่น ๆ ที่นำเสนอในการทดลองของเราสำหรับบทความนี้. 5.3 ข้อมูลอย่างHadoopDB ไม่ได้แทนที่ Hadoop ทั้งสองระบบร่วมกันช่วยให้นักวิเคราะห์ในการเลือกเครื่องมือที่เหมาะสมสำหรับชุดข้อมูลที่ได้รับและงาน ผ่านมาตรฐานการทำงานในต่อไปนี้ส่วนที่เราแสดงให้เห็นว่าการใช้ชั้นจัดเก็บฐานข้อมูลที่มีประสิทธิภาพลดลงในการประมวลผลข้อมูลเวลาโดยเฉพาะอย่างยิ่งในงานที่ต้องใช้ความซับซ้อนในการประมวลผลแบบสอบถามมากกว่าข้อมูลที่มีโครงสร้างเช่นร่วม นอกจากนี้เรายังแสดงให้เห็นว่า HadoopDB สามารถที่จะใช้ประโยชน์จากความผิดพลาดความอดทนและความสามารถในการทำงานในสภาพแวดล้อมที่แตกต่างกันที่มาตามธรรมชาติที่มีระบบHadoop สไตล์. 6 มาตรฐานในส่วนนี้เราประเมิน HadoopDB เปรียบเทียบกับการดำเนินงานMapReduce และสองการใช้งานฐานข้อมูลแบบขนานโดยใช้มาตรฐานที่นำเสนอครั้งแรกใน[23] 4 นี้มาตรฐานประกอบด้วยห้างาน งานแรกจะนำมาโดยตรงจากกระดาษ MapReduce เดิม [8] ซึ่งผู้เขียนเรียกร้องเป็นตัวแทนของงานนายที่พบบ่อย ถัดไปสี่งานจะถูกคำสั่งการวิเคราะห์ออกแบบมาเพื่อเป็นตัวแทนของดั้งเดิมข้อมูลที่มีโครงสร้างการวิเคราะห์ปริมาณงานที่เป้าหมายHadoopDB. เราวิ่งการทดลองของเราใน Amazon EC2 "ใหญ่" อินสแตนซ์ (โซน: เราตะวันออก-1b) ตัวอย่างแต่ละคนมี 7.5 GB หน่วยความจำ 4 EC2 Compute หน่วย (2 แกนเสมือน) การจัดเก็บเช่น 850 GB (2 x 420 GB บวก10 GB พาร์ทิชันราก) และวิ่งแพลตฟอร์ม 64 บิต Linux Fedora 8 OS

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ตารางการสแกนเป็นทูเปิลจะผลักทีละคน
ในวันที่ของผู้ประกอบการ ) ทั้งหมด ( เฉพาะแผนที่งานต้อง
ส่งออกผลลัพธ์เป็นแฟ้ม hdfs ) .
ดังกล่าวข้างต้น groupby แบบสอบถาม SMS สร้างหนึ่งในสองแผนแตกต่างกัน

ถ้าตารางการขายแบ่งตามปี ( saledate ) ,
มันสร้างแบบสอบถามแผนในรูปที่ 2 ( ข ) : แผนนี้ผลักดันทั้งหมด
แบบสอบถามการประมวลผลตรรกะเป็นฐานข้อมูลชั้น เฉพาะแผนที่งาน
ต้องผลผลิตผลลัพธ์ลงในแฟ้ม hdfs . มิฉะนั้น , SMS
สร้างแบบสอบถามแผนในรูปที่ 2 ( c ) ซึ่งในฐานข้อมูลชั้น
บางส่วนมวลรวมข้อมูลและลดการ และกลุ่มผู้ประกอบการที่ใช้ในแผนที่

เฟสของรังผึ้งสร้างแผนการแบบสอบถาม ( รูปที่ 2 ( ก ) ) ขั้นตอนสุดท้ายในการลดระยะของ
mapreduce งาน อย่างไรก็ตามยังคงต้องเพื่อที่จะผสานผลลัพธ์

จากแต่ละโหนด เพื่อร่วมค้นหารังถือว่าตารางไม่วางไว้ .
ดังนั้น รังสร้างแผนสแกนแต่ละตารางอิสระ
. เข้าร่วมหลังจาก repartitioning ข้อมูลโดยรวมที่สำคัญ
ในทางตรงกันข้ามถ้ารวมคีย์ตรงกับฐานข้อมูลการ SMS
คีย์ผลักดันทั้งหมดเข้าร่วมย่อยต้นไม้ลงในฐานข้อมูลชั้น
ดังนั้นไกล เราเพียง แต่สนับสนุนตัวเลือก ( โครงการ ) และผู้ประกอบการรวม

ในปัจจุบัน การคุณลักษณะที่สนับสนุนโดยกลุ่ม
แสนนา ¨ıได้และไม่สนับสนุนการแสดงออกตาม CC .
ดังนั้นเราจึงไม่สามารถตรวจสอบได้ หากโต๊ะขายแบ่ง
ปี ( saledate ) หรือไม่ ดังนั้น เราต้องมองโลกในแง่ร้าย
สมมติฐานที่ว่าข้อมูลจะไม่ได้แบ่งตามคุณลักษณะนี้ .
รังสร้าง [ 15 ] เราขยายเป็นรถเล็กๆ ตามที่อธิบายไว้ในส่วน 6.2.5
ก็ล้มเหลว การเข้าร่วมงานที่ใช้ในมาตรฐานของเรา
เมื่อวิ่งมา hdfs tables3 . แต่เราใช้
SMS วางแผนให้โดยอัตโนมัติกดแบบสอบถาม SQL ใน hadoopdb ของ
DBMS ชั้นอื่น ๆ ทั้งหมดที่นำเสนอในมาตรฐานแบบสอบถาม
การทดลองของเรากระดาษนี้

hadoopdb 5.3 สรุปไม่ได้แทนที่ Hadoop . ระบบทั้งสองอยู่ร่วมงาน
นักวิเคราะห์เพื่อเลือกเครื่องมือที่เหมาะสมเพื่อให้ข้อมูล
และงาน . ผ่านประสิทธิภาพมาตรฐานใน
ส่วนต่อไปนี้ เราแสดงให้เห็นว่าการใช้ที่มีประสิทธิภาพฐานข้อมูลกระเป๋าชั้นตัด
ลงในข้อมูลการประมวลผลเวลา โดยเฉพาะงานที่ต้องใช้ซับซ้อน
แบบสอบถามประมวลผลมากกว่าข้อมูลที่มีโครงสร้างเช่นเข้าร่วม เรายัง hadoopdb
แสดงให้เห็นว่าสามารถใช้ประโยชน์จากความผิดความอดทน
และความสามารถในการทำงานในสภาพแวดล้อมที่แตกต่างกันตามธรรมชาติ ด้วยระบบสไตล์ Hadoop มา
.
6 มาตรฐาน
ในส่วนนี้เราประเมิน hadoopdb เปรียบเทียบกับการใช้และการใช้งานฐานข้อมูล mapreduce

สองขนานการใช้เกณฑ์มาตรฐานที่นำเสนอครั้งแรกใน [ 23 ] 4 . มาตรฐานนี้
ออกเป็น 5 งาน งานแรกที่ถ่ายโดยตรงจากเดิม mapreduce
กระดาษ [ 8 ] ที่ผู้เขียนอ้างว่าเป็นผู้แทนของทั่วไป
คุณงาน อีก 4 งาน
วิเคราะห์แบบสอบถามที่ออกแบบมาเพื่อเป็นตัวแทนของดั้งเดิม
การวิเคราะห์ข้อมูลโครงสร้างระบบ hadoopdb
ที่เป้าหมายเราวิ่งทดลองของเราบน Amazon EC2 " ใหญ่ " อินสแตนซ์ ( โซน :
us-east-1b ) แต่ละครั้งจะมี 7.5 GB หน่วยความจำ 4 EC2 คำนวณ
หน่วย ( 2 คอร์เสมือน ) 850 GB ตัวอย่างกระเป๋า ( 2 x 420 GB บวก
10 พาร์ทิชันราก GB ) และวิ่ง 64 บิตแพลตฟอร์ม Linux Fedora 8 OS

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.