The performance numbers for each be

The performance numbers for each benchmarked system is displayed
in Fig. 7 and 8. Similar to the Grep task, this query is
limited by reading data off disk. Thus, both commercial systems
benefit from compression and outperform HadoopDB and Hadoop.
We observe a reversal of the general rule that Hive adds an overhead
cost to hand-coded Hadoop in the “small” (substring) aggregation
task (the time taken by Hive is represented by the lower part of
the Hadoop bar in Fig. 8). Hive performs much better than Hadoop
because it uses a hash aggregation execution strategy (it maintains
an internal hash-aggregate map in the Map phase of the job), which
proves to be optimal when there is a small number of groups. In
the large aggregation task, Hive switches to sort-based aggregation
upon detecting that the number of groups is more than half the number
of input rows per block. In contrast, in our hand-coded Hadoop
plan we (and the authors of [23]) failed to take advantage of hash
aggregation for the smaller query because sort-based aggregation
(using Combiners) is a MapReduce standard practice.
These results illustrate the benefit of exploiting optimizers
present in database systems and relational query systems like
Hive, which can use statistics from the system catalog or simple
optimization rules to choose between hash aggregation and sort
aggregation.
Unlike Hadoop’s Combiner, Hive serializes partial aggregates
into strings instead of maintaining them in their natural binary representation.
Hence, Hive performs much worse than Hadoop on the
larger query.
PostgreSQL chooses to use hash aggregation for both tasks as it
can easily fit the entire hash aggregate table for each 1GB chunk
in memory. Hence, HadoopDB outperforms Hadoop on both tasks
due to its efficient aggregation implementation.
This query is well-suited for systems that use column-oriented
storage, since the two attributes accessed in this query (sourceIP
and adRevenue) consist of only 20 out of the more than 200 bytes
in each UserVisits tuple. Vertica is thus able to significantly outperform
the other systems due to the commensurate I/O savings.
6.2.5 Join Task
The join task involves finding the average pageRank of the set
of pages visited from the sourceIP that generated the most revenue
during the week of January 15-22, 2000. The key difference between
this task and the previous tasks is that it must read in two
different data sets and join them together (pageRank information is
found in the Rankings table and revenue information is found in the
UserVisits table). There are approximately 134,000 records in the
UserVisits table that have a visitDate value inside the requisite date
range.
Unlike the previous three tasks, we were unable to use the same
SQL for the parallel databases and for Hadoop-based systems. This
is because the Hive build we extended was unable to execute this

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

แสดงหมายเลขประสิทธิภาพสำหรับแต่ละระบบ benchmarkedFig. 7 และ 8 แบบสอบถามนี้จะคล้ายกับงาน Grepจำกัด(มหาชน) โดยการอ่านข้อมูลจากดิสก์ ดังนั้น ทั้งระบบเชิงพาณิชย์ได้รับประโยชน์จากการบีบอัด และมีประสิทธิภาพสูงกว่าอย่างไร Hadoop และ HadoopDBเราสังเกตของกฎทั่วไปที่กลุ่มเพิ่มค่าใช้จ่ายในการต้นทุนในมือเข้ารหัสอย่างไร Hadoop ในรวม "เล็ก" (ด้วย)(เวลาที่ใช้กลุ่มแสดงไว้ด้านล่างของงานอย่างไร Hadoop แถบใน Fig. 8) กลุ่มทำดีกว่าอย่างไร Hadoopเนื่องจากใช้การดำเนินการกลยุทธ์รวมแฮ (มันรักษาการภายในแฮรวมแผนที่ในระยะแผนที่ของงาน), ซึ่งพิสูจน์ให้เหมาะสมเมื่อมีจำนวนเล็ก ๆ ของกลุ่ม ในงานรวมขนาดใหญ่ กลุ่มสลับไปรวมเรียงลำดับตามเมื่อตรวจสอบว่าหมายเลขของกลุ่มจำนวนมากกว่าครึ่งของแถวสำหรับการป้อนค่าต่อบล็อก ในทางตรงกันข้าม ในของเราอย่างไร Hadoop แบบมือแผนที่เรา (และผู้เขียน [23]) ไม่สามารถใช้ประโยชน์จากแฮรวมแบบสอบถามที่มีขนาดเล็กเนื่องจากรวมการเรียงลำดับตาม(ใช้ Combiners) เป็น MapReduce เป็นมาตรฐานการปฏิบัติผลเหล่านี้แสดงให้เห็นถึงประโยชน์ของ exploiting เพิ่มประสิทธิภาพนำเสนอในระบบฐานข้อมูล และแบบสอบถามเชิงระบบเช่นกลุ่ม ซึ่งสามารถใช้สถิติ จากแค็ตตาล็อกระบบ หรืออย่างปรับกฎให้เลือกระหว่างแฮรวมและเรียงลำดับรวมซึ่งแตกต่างจากของอย่างไร Hadoop Combiner กลุ่ม serializes เพิ่มบางส่วนเป็นสตริงการแทนที่จะรักษาพวกเขาในการแสดงไบนารีของธรรมชาติดังนั้น กลุ่มทำมากแย่กว่าอย่างไร Hadoop ในการสอบถามขนาดใหญ่PostgreSQL เลือกใช้แฮรวมทั้งงานที่ได้อย่างง่ายดายสามารถใส่ตารางรวมทั้งแฮสำหรับแต่ละกลุ่ม 1GBในหน่วยความจำ ดังนั้น HadoopDB outperforms อย่างไร Hadoop ทั้งงานเนื่องจากความมีประสิทธิภาพรวมดำเนินการแบบสอบถามนี้เป็นสำหรับระบบที่ใช้แนวคอลัมน์เก็บ ตั้งแต่การเข้าถึงแบบสอบถามนี้ (sourceIP แอตทริบิวต์สองและ adRevenue) ประกอบด้วย 20 เท่าจากไบต์มากกว่า 200ในแต่ละทูเพิล UserVisits Vertica จึงจะมีประสิทธิภาพสูงกว่าอย่างมีนัยสำคัญในระบบอื่น ๆ เนื่องจากประหยัด I/O สอด6.2.5 เข้าร่วมงานรวมงานเกี่ยวข้องกับการหารถเข้าเฉลี่ยของชุดหน้าการเยี่ยมชมจาก sourceIP ที่สร้างรายได้มากที่สุดในระหว่างสัปดาห์ 15-22, 2543 ความแตกต่างที่สำคัญระหว่างงานนี้และงานที่ก่อนหน้านี้เป็นที่ต้องอ่าน 2ชุดข้อมูลที่แตกต่างกัน และร่วมกัน (ข้อมูลรถเข้าได้พบในตารางจัดอันดับ และพบข้อมูลรายได้ในการUserVisits ตาราง) มีประมาณ 134,000 ระเบียนในการตาราง UserVisits ที่มีค่า visitDate ภายในวันจำเป็นช่วงนั้นซึ่งแตกต่างจากงานสามก่อนหน้านี้ เราไม่สามารถจะใช้เหมือนกันSQL สำหรับฐานข้อมูลแบบขนาน และระบบที่ใช้อย่างไร Hadoop นี้เพราะการสร้างรังที่เราขยายไม่สามารถดำเนินการนี้

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ตัวเลขผลการดำเนินงานสำหรับแต่ละระบบ benchmarked
จะปรากฏในรูป 7 และ 8 ที่คล้ายกันกับงาน Grep แบบสอบถามนี้จะถูก
จำกัด โดยการอ่านข้อมูลออกจากดิสก์ ดังนั้นทั้งสองระบบในเชิงพาณิชย์ได้รับประโยชน์จากการบีบอัดและมีประสิทธิภาพสูงกว่า HadoopDB และ Hadoop. เราสังเกตการพลิกกลับของกฎทั่วไปที่ไฮฟ์เพิ่มค่าใช้จ่ายค่าใช้จ่ายในมือรหัส Hadoop ใน "เล็ก" (ย่อย) รวมงาน(เวลาถ่ายโดยไฮฟ์เป็น ตัวแทนจากส่วนล่างของแถบHadoop ในรูป. 8) Hive ดำเนินการดีกว่า Hadoop เพราะใช้กลยุทธ์การดำเนินการรวมกัญชา (รักษาแผนที่กัญชารวมภายในระยะแผนที่ของงาน) ซึ่งพิสูจน์ให้เป็นที่ดีที่สุดเมื่อมีจำนวนเล็ก ๆ ของกลุ่ม ในงานรวมขนาดใหญ่ไฮฟ์สวิทช์ที่จะรวมตัวเรียงลำดับตามเมื่อตรวจสอบว่าจำนวนของกลุ่มเป็นมากกว่าครึ่งหนึ่งของจำนวนของแถวป้อนข้อมูลต่อบล็อก ในทางตรงกันข้ามใน Hadoop มือรหัสของเราแผนเรา(และผู้เขียนของ [23]) ล้มเหลวในการใช้ประโยชน์จากกัญชารวมสำหรับแบบสอบถามที่มีขนาดเล็กเนื่องจากการรวมตัวจัดเรียงตาม(ใช้ Combiners) เป็นมาตรฐานการปฏิบัติ MapReduce. ผลการศึกษานี้แสดงให้เห็นถึง ประโยชน์ของการใช้ประโยชน์จากการเพิ่มประสิทธิภาพที่มีอยู่ในระบบฐานข้อมูลและระบบแบบสอบถามเชิงสัมพันธ์เช่นHive ซึ่งสามารถใช้สถิติจากแคตตาล็อกระบบหรือง่ายกฎการเพิ่มประสิทธิภาพในการเลือกระหว่างการรวมกัญชาและการเรียงลำดับการรวม. ซึ่งแตกต่างจาก Hadoop ของ Combiner, Hive serializes มวลบางส่วนลงไปในสายแทนการรักษาพวกเขาในการเป็นตัวแทนของพวกเขาไบนารีธรรมชาติ. ดังนั้น Hive ดำเนินการมากยิ่งกว่า Hadoop บนแบบสอบถามที่มีขนาดใหญ่. PostgreSQL เลือกที่จะใช้การรวมกัญชาสำหรับงานทั้งในขณะที่มันสามารถพอดีตารางกัญชารวมทั้งสำหรับแต่ละก้อน1GB ในหน่วยความจำ ดังนั้น HadoopDB มีประสิทธิภาพดีกว่า Hadoop ในงานทั้งสองเนื่องจากการดำเนินการรวมตัวของมันที่มีประสิทธิภาพ. แบบสอบถามนี้เป็นอย่างดีเหมาะสำหรับระบบที่ใช้มุ่งเน้นคอลัมน์จัดเก็บข้อมูลตั้งแต่สองลักษณะเข้าถึงได้ในแบบสอบถามนี้ (sourceIP และ adRevenue) ประกอบด้วยเพียง 20 ออกจาก กว่า 200 ไบต์ในแต่ละtuple UserVisits Vertica จึงสามารถที่จะมีประสิทธิภาพสูงกว่าอย่างมีนัยสำคัญระบบอื่นๆ อันเนื่องมาจากความ I / O ที่เงินฝากออมทรัพย์. 6.2.5 เข้าร่วมงานเข้าร่วมงานที่เกี่ยวข้องกับการค้นหาPageRank เฉลี่ยของชุดของหน้าเว็บที่เข้าเยี่ยมชมจากsourceIP ที่สร้างรายได้มากที่สุดในช่วงสัปดาห์ของ15-22 มกราคม 2000 ความแตกต่างที่สำคัญระหว่างงานนี้และงานก่อนหน้านี้ก็คือว่ามันจะต้องอ่านในสองชุดข้อมูลที่แตกต่างกันและเข้าร่วมพวกเขาร่วมกัน(ข้อมูล PageRank จะพบในตารางการจัดอันดับและข้อมูลรายได้จากที่พบในตารางUserVisits) . มีประมาณ 134,000 ระเบียนในตารางUserVisits ที่มีค่า visitDate ภายในวันที่จำเป็นช่วง. ซึ่งแตกต่างจากก่อนหน้านี้สามงานที่เราไม่สามารถที่จะใช้เหมือนกันSQL สำหรับฐานข้อมูลแบบขนานและสำหรับระบบ Hadoop-based นี้เป็นเพราะการสร้างรังที่เราขยายก็ไม่สามารถที่จะดำเนินการนี้

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การปฏิบัติงานตรวจสอบตัวเลขสำหรับแต่ละระบบที่แสดงในรูปที่ 7 และ 8
. คล้ายกับสามารถงาน แบบสอบถามนี้เป็น
จำกัด โดยอ่านข้อมูลจากดิสก์ ดังนั้น ระบบทั้งเชิงพาณิชย์และได้รับประโยชน์จากการบีบอัดดีกว่า

เราสังเกตและ hadoopdb Hadoop . การย้อนกลับของกฎทั่วไปที่รังผึ้ง เพิ่มต้นทุนค่าใช้จ่าย
มือรหัส Hadoop ใน " เล็ก " ( ข้อความ ) รวม
งาน ( เวลาที่ถ่ายโดยรังจะถูกแสดง โดยส่วนล่างของ
Hadoop บาร์ในรูปที่ 8 ) กลุ่มมีประสิทธิภาพดีกว่า Hadoop
เพราะใช้แฮชการรวมกลยุทธ์การรักษา
ภายในกัญชารวมแผนที่ในแผนที่ ( งาน ) , ซึ่ง
พิสูจน์ให้เป็นที่ดีที่สุดเมื่อมีจำนวนเล็ก ๆของกลุ่ม ในงานมาก
,
รังสลับเรียงตามการรวมเมื่อตรวจสอบว่าหมายเลขของกลุ่มมากกว่าครึ่งหนึ่งของจำนวน
เข้าแถวต่อบล็อก ในทางตรงกันข้าม ในมือของเรารหัส Hadoop
แผนเรา ( และผู้เขียน [ 23 ] ) ล้มเหลวในการใช้ประโยชน์ของกัญชา
รวมสำหรับขนาดเล็กเรียงตามแบบสอบถาม เพราะรวม
( ใช้ควบ ) คือ มาตรฐานการปฏิบัติ mapreduce .
ผลลัพธ์เหล่านี้แสดงให้เห็นถึงประโยชน์ของการใช้ประโยชน์จาก optimizers
ปัจจุบันระบบฐานข้อมูลและระบบสืบค้นเชิงสัมพันธ์เช่น
รังซึ่งสามารถใช้สถิติจากระบบแคตตาล็อกหรือกฎการเพิ่มประสิทธิภาพง่าย
เลือกระหว่างการจัดเรียงของกัญชา
.
ซึ่งแตกต่างจาก Hadoop มันกล้ำรัง serializes
มวลรวม , บางส่วนเป็นสตริงแทนการรักษาพวกเขาในการแทนเลขฐานสองของธรรมชาติ .
ดังนั้นรังแสดงมาก แย่กว่า Hadoop บน
สอบถามขนาดใหญ่ .
PostgreSQL เลือกที่จะใช้กัญชารวมสำหรับงานตามที่
สามารถพอดีกับทั้งกัญชารวมตารางสำหรับแต่ละก้อน
ทันทีในหน่วยความจำ ดังนั้น hadoopdb โปรย Hadoop ทั้งสองงาน
เนื่องจากการรวมที่มีประสิทธิภาพของ .
แบบสอบถามนี้เหมาะสำหรับระบบที่ใช้คอลัมน์ที่มุ่งเน้น
กระเป๋าตั้งแต่สองคุณลักษณะการเข้าถึงในแบบสอบถามนี้ ( sourceip
adrevenue ) และประกอบด้วยเพียง 20 ออกจากมากกว่า 200 ไบต์
uservisits ในแต่ละทูเปิล . ฐานจึงสามารถอย่างมีนัยสำคัญดีกว่า
ระบบอื่น ๆเนื่องจากการซ่อมประหยัด I / O .

6.2.5 เข้าร่วมงาน เข้าร่วมงานที่เกี่ยวข้องกับการค้นหา PageRank เฉลี่ยของชุดของหน้าเว็บที่เข้าเยี่ยมชมจาก sourceip

ที่สร้างรายได้มากที่สุดในช่วงสัปดาห์ของวันที่ 15-22 ปี 2000ที่สำคัญความแตกต่างระหว่าง
งานนี้และงานก่อนหน้านั้น ต้องอ่านใน 2
ข้อมูลที่แตกต่างกันและชุดเข้าด้วยกัน ( PageRank ข้อมูล
พบในอันดับตารางและรายได้จากข้อมูลที่พบใน
uservisits โต๊ะ ) มีประมาณ 134000 ประวัติใน
uservisits โต๊ะนั้นมี visitdate ค่าภายในช่วงวันที่

จำเป็นซึ่งแตกต่างจากก่อนหน้าสามงาน เราไม่สามารถที่จะใช้ SQL เดียวกัน
สำหรับฐานข้อมูลแบบขนานและ Hadoop ตามระบบ นี้
เพราะรังสร้างเราขยายไม่สามารถดำเนินการนี้

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.