We observed that disk I/O performan

We observed that disk I/O performance on EC2 nodes were initially
quite slow (25MB/s). Consequently, we initialized some additional
space on each node so that intermediate files and output of
the tasks did not suffer from this initial write slow-down. Once disk
space is initialized, subsequent writes are much faster (86MB/s).
Network speed is approximately 100-110MB/s. We execute each
task three times and report the average of the trials. The final results
from all parallel databases queries are piped from the shell command
into a file. Hadoop and HadoopDB store results in Hadoop’s
distributed file system (HDFS). In this section, we only report results
using trials where all nodes are available, operating correctly,
and have no concurrent tasks during benchmark execution (we drop
these requirements in Section 7). For each task, we benchmark performance
on cluster sizes of 10, 50, and 100 nodes.
6.1 Benchmarked Systems
Our experiments compare performance of Hadoop, HadoopDB
(with PostgreSQL5 as the underlying database) and two commercial
parallel DBMSs.
6.1.1 Hadoop
Hadoop is an open-source version of the MapReduce framework,
implemented by directly following the ideas described in the original
MapReduce paper, and is used today by dozens of businesses
to perform data analysis [1]. For our experiments in this paper, we
use Hadoop version 0.19.1 running on Java 1.6.0. We deployed the
system with several changes to the default configuration settings.
Data in HDFS is stored using 256MB data blocks instead of the default
64MB. Each MR executor ran with a maximum heap size of
1024MB. We allowed two Map instances and a single Reduce instance
to execute concurrently on each node. We also allowed more
buffer space for file read/write operations (132MB) and increased
the sort buffer to 200MB with 100 concurrent streams for merging.
Additionally, we modified the number of parallel transfers run by
Reduce during the shuffle phase and the number of worker threads
for each TaskTracker’s http server to be 50. These adjustments
follow the guidelines on high-performance Hadoop clusters [13].
Moreover, we enabled task JVMs to be reused.
For each benchmark trial, we stored all input and output data in
HDFS with no replication (we add replication in Section 7). After
benchmarking a particular cluster size, we deleted the data directories
on each node, reformatted and reloaded HDFS to ensure
uniform data distribution across all nodes.
We present results of both hand-coded Hadoop and Hive-coded
Hadoop (i.e. Hadoop plans generated automatically via Hive’s SQL
interface). These separate results for Hadoop are displayed as split
bars in the graphs. The bottom, colored segment of the bars represent
the time taken by Hadoop when hand-coded and the rest of the
bar indicates the additional overhead as a result of the automatic
plan-generation by Hive, and operator function-call and dynamic
data type resolution through Java’s Reflection API for each tuple
processed in Hive-coded jobs.
6.1.2 HadoopDB
The Hadoop part of HadoopDB was configured identically to the
description above except for the number of concurrent Map tasks,
which we set to one. Additionally, on each worker node, PostgreSQL
version 8.2.5 was installed. We increased memory used by
the PostgreSQL shared buffers to 512 MB and the working memory

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

เราสังเกตว่า ดิสก์ I/O ประสิทธิภาพบน EC2 โหนเริ่มต้นค่อนข้างช้า (25MB/s) ดังนั้น เราได้เริ่มต้นบางอย่างเพิ่มเติมเนื้อที่บนแต่ละโหนดเพื่อที่กลางแฟ้มและผลผลิตของงานได้ไม่ต้องทนทุกข์ทรมานจากนี้ชะลอการเริ่มต้นเขียน เมื่อดิสก์พื้นที่ถูกเตรียมใช้งาน เขียนตามมาได้มากได้เร็วขึ้น (86MB/s)เครือข่ายความเร็วประมาณ 100-110MB/s ได้ เราดำเนินการให้แต่ละงานครั้งที่สาม และรายงานค่าเฉลี่ยของการทดลอง ผลสุดท้ายจากฐานข้อมูลทั้งหมดพร้อม แบบสอบถามจะส่งผ่านจากคำสั่งเชลล์ลงในแฟ้ม อย่างไร Hadoop และ HadoopDB เก็บผลลัพธ์ในของอย่างไร Hadoopระบบแฟ้มแบบกระจาย (HDFS) ในส่วนนี้ เราเพียงรายงานผลใช้ทดลองที่โหนทั้งหมดจะพร้อมใช้งาน ทำงานได้อย่างถูกต้องและมีงานไม่พร้อมกันในระหว่างการดำเนินการมาตรฐาน (เราฝากข้อกำหนดเหล่านี้ใน 7 ส่วน) สำหรับแต่ละงาน เราเปรียบประสิทธิภาพในคลัสเตอร์ขนาด 10, 50 และ 100 โหน6.1 ระบบ benchmarkedเราทดลองเปรียบเทียบประสิทธิภาพของอย่างไร Hadoop, HadoopDB(กับ PostgreSQL5 เป็นฐานข้อมูลต้นแบบ) และพาณิชย์สองDBMSs ขนาน6.1.1 อย่างไร Hadoopอย่างไร Hadoop เป็นรุ่นเปิดแหล่งข้อมูลของกรอบ MapReduceดำเนินการ โดยตรงต่อความคิดที่อธิบายไว้ในต้นฉบับMapReduce กระดาษ และใช้วันนี้ของธุรกิจการทำการวิเคราะห์ข้อมูล [1] สำหรับการทดลองของเราในกระดาษนี้ เราใช้อย่างไร Hadoop รุ่น 0.19.1 ทำงานบน Java 1.6.0 เราใช้ระบบ มีการเปลี่ยนแปลงการตั้งค่าคอนฟิกเริ่มต้นหลายจัดเก็บข้อมูลใน HDFS ใช้ 256MB ข้อมูลบล็อกแทนค่าเริ่มต้น64 MB การดำเนินแต่ละนายวิ่งขนาดกองสูงสุด1024 MB นั้นเราได้แผนที่สองอินสแตนซ์และลดเพียงอินสแตนซ์เดียวพร้อมงานบนแต่ละโหนด เรายังได้เพิ่มเติมพื้นที่บัฟเฟอร์แฟ้มอ่าน/เขียน (132MB) การดำเนินงาน และการเพิ่มขึ้นบัฟเฟอร์เรียงถึง 200MB กับสตรีมพร้อม 100 สำหรับการผสานนอกจากนี้ เราปรับเปลี่ยนหมายเลขของการส่งแบบขนานโดยลดระยะสลับและจำนวนของเธรดของผู้ปฏิบัติงานสำหรับเซิร์ฟเวอร์ http TaskTracker ละจะ 50 ปรับปรุงเหล่านี้ตามแนวทางคลัสเตอร์อย่างไร Hadoop ประสิทธิภาพสูง [13]นอกจากนี้ เราเปิดใช้งาน JVMs เพื่อสามารถนำกลับมาใช้สำหรับการทดลองแต่ละเกณฑ์มาตรฐาน เราได้เก็บข้อมูลอินพุท และเอาท์พุททั้งหมดในHDFS ที่ไม่ (เราเพิ่มจำลองแบบใน 7 ส่วน) หลังจากขนาดคลัสเตอร์เฉพาะ benchmarking เราลบไดเรกทอรีข้อมูลบนแต่ละโหนด ฟอร์แมตใหม่ และโหลด HDFS ให้กระจายข้อมูลสม่ำเสมอทั้งโหนทั้งหมดเรานำเสนอผลลัพธ์ ของทั้งสองอย่างไร Hadoop มือรหัส และ รหัสกลุ่มอย่างไร Hadoop (เช่นอย่างไร Hadoop แผนสร้างขึ้นโดยอัตโนมัติผ่านทางกลุ่มของ SQLอินเตอร์เฟซ) แสดงผลลัพธ์อย่างไร Hadoop เหล่านี้แยกเป็นแยกบาร์ในกราฟ ด้านล่าง ส่วนสีของแถบแสดงเวลาที่ใช้อย่างไร Hadoop เมื่อมือเข้ารหัสและการแถบแสดงค่าโสหุ้ยเพิ่มเติมจากโดยอัตโนมัติสร้างแผน กลุ่ม และดำเนินการ เรียกฟังก์ชัน และไดนามิกชนิดข้อมูลละเอียดผ่านของ Java API สะท้อนสำหรับแต่ละทูเพิลประมวลผลในงานมีกำหนดกลุ่ม6.1.2 HadoopDBมีการกำหนดค่าหนึ่งอย่างไร Hadoop HadoopDB เหมือนกันถึงคำอธิบายข้างต้นยกเว้นหมายเลขพร้อมแผนงานซึ่งเราตั้งค่าเป็นหนึ่ง นอกจากนี้ ในแต่ละโหนดของผู้ปฏิบัติงาน PostgreSQLรุ่น 8.2.5 ถูกติดตั้ง เราเพิ่มหน่วยความจำที่ใช้PostgreSQL ใช้ร่วมกันข้อมูลถึง 512 MB และหน่วยความจำที่ทำงาน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

เราสังเกตดิสก์ที่ I / O บนโหน EC2
อยู่ในขั้นต้นค่อนข้างช้า(25MB / s) ดังนั้นเราเริ่มต้นได้เพิ่มเติมบางพื้นที่ในแต่ละโหนดเพื่อให้แฟ้มกลางและการส่งออกของงานที่ไม่ได้ทนทุกข์ทรมานจากการเขียนเริ่มต้นนี้ชะลอตัวลง เมื่อดิสก์มีพื้นที่เริ่มต้นเขียนตามมาเร็ว (86MB / s). ความเร็วเครือข่ายจะอยู่ที่ประมาณ 100-110MB / s เราดำเนินการในแต่ละงานสามครั้งและรายงานค่าเฉลี่ยของการทดลอง ผลสุดท้ายจากฐานข้อมูลแบบขนานทุกคำสั่งจะประปาจากคำสั่งเปลือกลงในไฟล์ Hadoop และ HadoopDB ผลการจัดเก็บของใน Hadoop แจกจ่าย File System (HDFS) ในส่วนนี้เราจะรายงานผลการใช้การทดลองที่โหนดทั้งหมดที่มีการดำเนินงานอย่างถูกต้องและไม่มีงานพร้อมกันในระหว่างการดำเนินการมาตรฐาน(เราวางความต้องการเหล่านี้ไว้ในมาตรา 7) สำหรับแต่ละงานเรามาตรฐานการปฏิบัติงานในกลุ่มของขนาด 10, 50, และ 100 โหนด. 6.1 Benchmarked ระบบการทดลองของเราเปรียบเทียบประสิทธิภาพของHadoop, HadoopDB (มี PostgreSQL5 เป็นฐานข้อมูลพื้นฐาน) และสองในเชิงพาณิชย์DBMSs ขนาน. 6.1.1 Hadoop Hadoop เป็น รุ่นเปิดแหล่งที่มาของกรอบ MapReduce ที่ดำเนินการโดยโดยตรงต่อไปนี้ความคิดที่อธิบายไว้ในต้นฉบับกระดาษMapReduce และนำมาใช้ในวันนี้โดยหลายสิบของธุรกิจที่จะดำเนินการวิเคราะห์ข้อมูล[1] สำหรับการทดลองของเราในบทความนี้เราใช้รุ่น Hadoop 0.19.1 ทำงานบน Java 1.6.0 เรานำไปใช้ระบบที่มีการเปลี่ยนแปลงหลายอย่างการตั้งค่าการกำหนดค่าเริ่มต้น. ข้อมูลใน HDFS จะถูกเก็บไว้โดยใช้บล็อกข้อมูล 256MB แทนการเริ่มต้น64 แต่ละผู้บริหารนายวิ่งที่มีขนาดสูงสุดของกอง1024MB เราอนุญาตให้ทั้งสองกรณีแผนที่และเช่นเดียวลดการที่จะดำเนินการควบคู่กันไปในแต่ละโหนด นอกจากนี้เรายังได้รับอนุญาตให้มากขึ้นพื้นที่บัฟเฟอร์สำหรับแฟ้มการอ่าน / เขียนการดำเนินงาน (132MB) และเพิ่มบัฟเฟอร์การจัดเรียง200MB เสนอบัญชี 100 ลำธารพร้อมกันสำหรับการรวม. นอกจากนี้เรามีการปรับเปลี่ยนจำนวนของการถ่ายโอนขนานที่ดำเนินการโดยลดในระหว่างขั้นตอนการสับเปลี่ยนและจำนวนคนงานหัวข้อสำหรับเซิร์ฟเวอร์ http แต่ละ TaskTracker ที่จะเป็น 50. การปรับเปลี่ยนเหล่านี้เป็นไปตามหลักเกณฑ์ในกลุ่มที่มีประสิทธิภาพสูงHadoop เมื่อ [13]. นอกจากนี้เรายังเปิดใช้งาน JVMs งานที่จะนำกลับมาใช้. สำหรับแต่ละการทดลองใช้มาตรฐานที่เราเก็บไว้ข้อมูลเข้าและส่งออกทั้งหมดในHDFS กับ ไม่มีการจำลองแบบ (เราเพิ่มการจำลองแบบในมาตรา 7) หลังจากการเปรียบเทียบขนาดของคลัสเตอร์โดยเฉพาะอย่างยิ่งเราลบไดเรกทอรีข้อมูลในแต่ละโหนดรูปแบบใหม่และโหลดHDFS เพื่อให้แน่ใจว่าการกระจายข้อมูลที่เหมือนกันทั่วทุกโหนด. เรานำเสนอผลของทั้งสองมือรหัส Hadoop และ Hive รหัสHadoop (เช่นแผน Hadoop สร้างขึ้นโดยอัตโนมัติผ่านทาง ไฮฟ์ของ SQL อินเตอร์เฟซ) เหล่านี้ส่งผลแยกต่างหากสำหรับ Hadoop จะแสดงเป็นแยกบาร์ในกราฟ ด้านล่างส่วนสีของบาร์แทนเวลาที่ถ่ายโดย Hadoop เมื่อมือรหัสและส่วนที่เหลือของบาร์แสดงค่าใช้จ่ายเพิ่มเติมเป็นผลมาจากอัตโนมัติแผนรุ่นโดยไฮฟ์และผู้ประกอบการฟังก์ชั่นการโทรและแบบไดนามิกละเอียดชนิดข้อมูลสะท้อนผ่าน API ของ Java สำหรับแต่ละ tuple ประมวลผลในงานไฮฟ์รหัส. 6.1.2 HadoopDB ส่วนของ Hadoop HadoopDB การกำหนดค่าเหมือนกันกับคำอธิบายข้างต้นยกเว้นสำหรับจำนวนของงานแผนที่พร้อมกันซึ่งเราจะกำหนดให้เป็นหนึ่ง นอกจากนี้ในแต่ละโหนดงาน PostgreSQL รุ่น 8.2.5 การติดตั้ง เราได้เพิ่มหน่วยความจำที่ใช้โดยบัฟเฟอร์ PostgreSQL ที่ใช้ร่วมกันถึง 512 MB และหน่วยความจำในการทำงาน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

เราตรวจสอบว่าดิสก์ I / O ประสิทธิภาพ EC2 โหนดเริ่มต้นค่อนข้างช้า ( 25mb
/ s ) จากนั้น เราเริ่มใช้พื้นที่เพิ่มเติม
บางแต่ละโหนดเพื่อให้แฟ้มกลาง และผลผลิตของ
งานเคยประสบจากมันเริ่มต้นเขียนช้าลง เมื่อพื้นที่ดิสก์
เป็นเริ่มต้น ต่อมาเขียนเป็นเร็ว ( 86mb / S )
เครือข่าย ความเร็วประมาณ 100-110mb เราเรียกแต่ละ
/ Sงานสามครั้งและรายงานค่าเฉลี่ยของการทดลอง ผลลัพธ์สุดท้าย
จากฐานข้อมูลแบบสอบถามเป็นแบบท่อจากคำสั่งเชลล์
ลงในไฟล์ และเก็บผลลัพธ์ใน hadoopdb Hadoop Hadoop เป็นระบบแฟ้มแบบกระจาย (
hdfs ) ในส่วนนี้เราจะมารายงานผลการทดลองที่ทุกโหนด
ใช้งานอย่างถูกต้อง
พร้อมใช้งานและมีงานพร้อมกันในช่วงมาตรฐานปฏิบัติการ ( เราวาง
ความต้องการเหล่านี้ในหมวดที่ 7 ) สำหรับงานแต่ละงาน เรามาตรฐานประสิทธิภาพ
ในกลุ่ม ขนาด 10 , 50 และ 100 จุดตรวจสอบระบบของเรา

6.1 การทดลองเปรียบเทียบประสิทธิภาพของ Hadoop hadoopdb ,
( postgresql5 เป็นฐานข้อมูลต้นแบบ ) และสองค้า

และ Hadoop ขนาน DBMSs .Hadoop เป็นโอเพนซอร์สรุ่นของ mapreduce
โดยตรงตามกรอบแนวคิดที่อธิบายไว้ในกระดาษ mapreduce เดิม
และที่ใช้ในวันนี้โดยนับสิบของธุรกิจ
ทําการวิเคราะห์ข้อมูล [ 1 ] สำหรับการทดลองของเรา ในกระดาษนี้เรา
ใช้ Hadoop รุ่น 0.19.1 รันบน Java 08 . เราใช้ระบบกับหลายการเปลี่ยนแปลง

เริ่มต้นการตั้งค่า .ข้อมูลจะถูกเก็บไว้ใช้ใน hdfs 256MB บล็อกข้อมูลแทนที่จะเริ่มต้น
64MB . ผู้จัดการมรดกนายวิ่งสูงสุดแต่ละกองขนาด
1024mb . เราอนุญาตให้สองแผนที่อินสแตนซ์และเดียวลดเช่น
ประหารควบคู่กันไปในแต่ละโหนด นอกจากนี้เรายังให้พื้นที่กันชนเพิ่มเติม
สำหรับไฟล์อ่าน / เขียนการ 132mb ) และเพิ่มขึ้น
เรียงกันชนเพื่อ 200MB 100 สายพร้อมกันสำหรับการผสม .
นอกจากนี้เราแก้ไขจำนวนโอนขนานวิ่งโดย
ลดช่วงสลับเฟส และจำนวนคนงานของกระทู้
tasktracker แต่ละเว็บเซิร์ฟเวอร์เป็น 50 การปรับปรุงเหล่านี้
ตามแนวทางที่มีประสิทธิภาพสูงกลุ่ม Hadoop [ 13 ] .
นอกจากนี้ เราเปิดใช้งานได้ทันที jvms .
สำหรับแต่ละรอยที่ทดลองเราเก็บไว้ทั้งหมดนำเข้าและส่งออกข้อมูลใน
hdfs ไม่ซ้ำ ( เราเพิ่มจำนวนซ้ำในหมวดที่ 7 ) หลังจาก
การเทียบเคียงขนาดคลัสเตอร์โดยเฉพาะ เราลบไดเรกทอรีข้อมูล
ในแต่ละโหนด จัดรูปแบบและโหลด hdfs เพื่อให้ชุดการกระจายข้อมูลผ่านทุกปม
.
เรานำเสนอผลของทั้งสองมือรหัส Hadoop และกลุ่มรหัส
Hadoop ( เช่น Hadoop แผนการสร้างโดยอัตโนมัติผ่านรังของ SQL
อินเตอร์เฟซ )เหล่านี้แยกต่างหากจาก Hadoop จะแสดงเป็นแถบแบ่ง
ในกราฟ ด้านล่าง สีส่วนของแถบแสดง
เวลาที่ถ่ายโดย Hadoop เมื่อมือรหัสและส่วนที่เหลือของ
บาร์บ่งบอกถึงค่าใช้จ่ายเพิ่มเติม เป็นผลจากแผนการสร้างโดยอัตโนมัติ
รังและการเรียกใช้ฟังก์ชันและแบบไดนามิกที่ละเอียด
ชนิดข้อมูลผ่าน Java API สำหรับแต่ละ tuple
ของการสะท้อนประมวลผลในกลุ่ม รหัสงาน ร

hadoopdb Hadoop เป็นส่วนหนึ่งของ hadoopdb ถูกตั้งค่าเหมือนกัน
รายละเอียดข้างต้นยกเว้นหมายเลขของงานแผนที่พร้อมกัน
ซึ่งเราชุดหนึ่ง นอกจากนี้ ในแต่ละงาน Node , PostgreSQL
รุ่น 8.2.5 ถูกติดตั้ง เราเพิ่มหน่วยความจำที่ใช้โดย
PostgreSQL ใช้บัฟเฟอร์ให้ 512 MB และหน่วยความจำทำงาน

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.