Data skew is not a new problem spec

Data skew is not a new problem specific to MapReduce.
It has been studied previously in the parallel database
literature, but only limited on join [5], [6], [7], [8], [9], group
[10], and aggregate [11] operations. Although some of these
techniques have already been applied to MapReduce, users
still need to develop their own data skew mitigation methods
for specific applications in most cases. The Hadoop implementation of MapReduce by default uses static hash functions to partition the intermediate data. This works well
when the data is uniformly distributed, but can perform
badly when the input is skewed (some key values are significantly more frequent than others). This can be illuฟstrated in
the top figure of Fig. 1 when we run the sort benchmark [2]
on 10 GB input data following the Zipf distribution (s ¼ 1:0).
This situation also appears in other static partition methods.
For example, in the bottom figure, we use a static range partition method (RADIX partition with 26 reducers for words
starting with each letter of the alphabet and another reducer
for special characters) to generate a lexicographically
ordered inverted index on full English Wikipedia archive
with a total data size of 31 GB. Like the hash method, it
results in significant data skew as well. To tackle this problem, Hadoop provides a dynamic range partition method
which conducts a pre-run sample of the input before the real
job. The middle figure (same experiment environment as the
top figure) shows that this method mitigates the problem
somewhat, but the resulting distribution is still uneven.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

การเอียงของข้อมูลไม่ใช่ปัญหาใหม่เฉพาะ MapReduceมันมีการศึกษาก่อนหน้านี้ในฐานข้อมูลแบบขนานกลุ่มวรรณกรรม แต่จำกัดเฉพาะบนรวม [5], [6], [7], [8], [9],[10], และรวมการดำเนินงาน [11] แม้เหล่านี้แล้วได้ใช้เทคนิคการ MapReduce ผู้ใช้ยัง จำเป็นต้องพัฒนาวิธีการบรรเทาสาธารณภัยต้นฉบับเอียงอัตโนมัติข้อมูลตนเองสำหรับการใช้งานเฉพาะในกรณีส่วนใหญ่ ปฏิบัติอย่างไร Hadoop MapReduce โดยค่าเริ่มต้นใช้ฟังก์ชันแฮคงจะแบ่งพาร์ติชันข้อมูลกลาง ใช้งานดีเมื่อข้อมูลมีกระจายสม่ำเสมอเมื่อเทียบเคียง แต่สามารถไม่ดีเมื่ออินพุตเป็นเบ้ (ค่าบางค่าที่สำคัญเป็นอย่างมากบ่อยขึ้นกว่าคนอื่น ๆ) สามารถ illuฟstrated ในรูปด้านบน 1 Fig. เมื่อเรารัน benchmark เรียงลำดับ [2]บน 10 GB ข้อมูลอินพุตต่อกระจาย Zipf (s ¼ 1:0)สถานการณ์นี้ยังปรากฏในวิธีการพาร์ติชันที่คงที่อื่น ๆตัวอย่าง ในรูปล่าง เราใช้วิธีคงช่วงพาร์ติชัน (พาร์ฐาน reducers 26 คำเริ่มต้น ด้วยตัวอักษรแต่ละตัวอักษรและลดอีกสำหรับอักขระพิเศษ) เพื่อสร้างเป็น lexicographicallyสั่งดัชนีกลับบนวิกิพีเดียภาษาอังกฤษเต็มถาวรมีขนาดข้อมูลรวมของ 31 GB ชอบวิธีแฮ มันผลลัพธ์ในข้อมูลสำคัญเอียงด้วย เล่นงานปัญหานี้ อย่างไร Hadoop ให้วิธีช่วงพาร์ติชันที่ทำตัวอย่างก่อนใช้ป้อนข้อมูลก่อนจริงงาน รูปตรงกลาง (เหมือนทดลองสภาพแวดล้อมเป็นการรูปด้านบน) แสดงว่า วิธีการนี้ mitigates ปัญหาค่อนข้าง แต่การกระจายผลลัพธ์ยังไม่สม่ำเสมอ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ลาดข้อมูลไม่เป็นปัญหาใหม่ที่เฉพาะเจาะจงเพื่อ MapReduce.
จะได้รับการศึกษาก่อนหน้านี้ในฐานข้อมูลแบบขนานวรรณกรรม แต่ จำกัด อยู่เพียงในการเข้าร่วม [5] [6] [7] [8] [9] กลุ่ม [10 ] และรวม [11] การดำเนินงาน แม้ว่าบางส่วนของเหล่านี้เทคนิคที่ได้รับการประยุกต์ใช้กับ MapReduce ผู้ใช้ยังคงต้องพัฒนาข้อมูลของตัวเองวิธีการบรรเทาผลกระทบเอียงสำหรับการใช้งานที่เฉพาะเจาะจงในกรณีส่วนใหญ่ การดำเนินการของ Hadoop MapReduce โดยเริ่มต้นใช้ฟังก์ชันแฮชคงที่พาร์ทิชันข้อมูลกลาง นี้ทำงานได้ดีเมื่อข้อมูลถูกกระจายเหมือนกันแต่สามารถดำเนินการไม่ดีเมื่อเข้าเป็นเบ้(บางคนค่าคีย์อย่างมีนัยสำคัญมากขึ้นบ่อยกว่าคนอื่น ๆ ) นี้สามารถ Illu ฟ strated ในรูปด้านบนของรูป 1 เมื่อเราเรียกใช้การจัดเรียงมาตรฐาน [2] ในการป้อนข้อมูล 10 GB ต่อไปนี้การกระจาย Zipf (s ¼ 1: 0). สถานการณ์นี้ยังปรากฏอยู่ในวิธีการพาร์ทิชันแบบคงที่อื่น ๆ . ยกตัวอย่างเช่นในรูปด้านล่างเราจะใช้ช่วงแบบคงที่ วิธีการพาร์ทิชัน (พาร์ทิชัน Radix 26 reducers คำที่ขึ้นต้นด้วยตัวอักษรแต่ละตัวของตัวอักษรและลดอีกสำหรับตัวอักษรพิเศษ) เพื่อสร้าง lexicographically ดัชนีคำสั่งให้กลับหัวกับการจัดเก็บแบบอังกฤษวิกิพีเดียที่มีขนาดข้อมูลทั้งหมด 31 GB วิธีการเช่นเดียวกับกัญชาก็ส่งผลให้ข้อมูลที่สำคัญเอียงเช่นกัน ที่จะจัดการปัญหานี้ Hadoop มีวิธีการพาร์ทิชันช่วงแบบไดนามิกที่ดำเนินตัวอย่างก่อนการทำงานของท่านก่อนที่จริงงาน รูปกลาง (สภาพแวดล้อมการทดสอบเช่นเดียวกับรูปด้านบน) แสดงให้เห็นว่าวิธีนี้ช่วยลดผลกระทบปัญหาบ้าง แต่การกระจายผลยังคงไม่สม่ำเสมอ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ข้อมูลที่บิดเบือนไม่ได้ปัญหาใหม่ที่เฉพาะเจาะจงกับ mapreduce .
มันมีการศึกษาก่อนหน้านี้ในวรรณคดีฐานข้อมูล
ขนาน แต่ จำกัด เฉพาะในร่วมกับ [ 5 ] [ 6 ] [ 7 ] , [ 8 ] , [ 9 ] , กลุ่ม
[ 10 ] และการดำเนินงาน [ 11 ] รวม . แม้ว่าบางส่วนของเทคนิคเหล่านี้
ได้ถูกนำมาใช้เพื่อ mapreduce ผู้ใช้
ยังต้องพัฒนาตนเอง ข้อมูลที่บิดเบือนวิธีการบรรเทา
สำหรับการใช้งานที่เฉพาะเจาะจงในกรณีส่วนใหญ่การ mapreduce Hadoop ตามค่าเริ่มต้นใช้ฟังก์ชัน hash แบบคงที่ไปยังพาร์ทิชันข้อมูลกลาง นี้ทำงานได้ดีเมื่อข้อมูลมีการกระจายอย่างสม่ำเสมอ

ไม่ดี แต่สามารถดำเนินการได้เมื่อใส่เบ้ ( บางค่าคีย์บ่อยมากขึ้นกว่าคนอื่น ๆ ) นี้สามารถ illu มี strated ใน
รูปด้านบนของรูปที่ 1 เมื่อเราเรียกใช้ประเภทมาตรฐาน [ 2 ]
ต่อ 10 GB ข้อมูลต่อไปนี้การกระจายซิพฟ์ ( s ¼ 1 : 0 )
สถานการณ์นี้ยังปรากฏในวิธีการพาร์ทิชันแบบคงที่อื่น ๆ .
ตัวอย่างในรูปด้านล่าง เราใช้วิธีแบ่งพาร์ทิชันรากคงช่วง 26 reducers สําหรับคํา
เริ่มที่แต่ละตัวอักษรของตัวอักษร และอีกลด
สำหรับอักขระพิเศษ ) เพื่อสร้าง lexicographically
สั่งคว่ำดัชนีใน
ถาวรวิกิพีเดียภาษาอังกฤษเต็มรูปแบบกับขนาดของข้อมูลทั้งหมดของ 32 GB ชอบวิธีแฮกมัน
ผลในข้อมูลที่บิดเบือนอย่างมีนัยสำคัญเช่นกัน เพื่อแก้ไขปัญหานี้ ให้ Dynamic Range Partition Hadoop วิธี
ซึ่งสัมภาษณ์ก่อนเรียกใช้ตัวอย่างของข้อมูลก่อนทำงานจริง ๆ

รูปกลาง ( การทดลองสิ่งแวดล้อมเช่นเดียวกับ
รูปด้านบน ) พบว่าวิธีนี้ช่วยลดปัญหา
บ้าง แต่ผลการกระจายยังไม่สม่ำเสมอ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.