5.1.3 CompressionAlmost every paral

5.1.3 Compression
Almost every parallel DBMS (including DBMS-X and Vertica)
allows for optional compression of stored data. It is not uncommon for compression to result in a factor of 6–10 space savings.
Vertica’s internal data representation is highly optimized for data
compression and has an execution engine that operates directly on
compressed data (i.e., it avoids decompressing the data during processing whenever possible). In general, since analysis tasks on large
data sets are often I/O bound, trading CPU cycles (needed to decompress input data) for I/O bandwidth (compressed data means
that there is less data to read) is a good strategy and translates to
faster execution. In situations where the executor can operate directly on compressed data, there is often no trade-off at all and
compression is an obvious win.
Hadoop and its underlying distributed filesystem support both
block-level and record-level compression on input data. We found,
however, that neither technique improved Hadoop’s performance
and in some cases actually slowed execution. It also required more
effort on our part to either change code or prepare the input data.
It should also be noted that compression was also not used in the
original MR benchmark [8].
In order to use block-level compression in Hadoop, we first had
to split the data files into multiple, smaller files on each node’s local
file system and then compress each file using the gzip tool. Compressing the data in this manner reduced each data set by 20–25%
from its original size. These compressed files are then copied into
HDFS just as if they were plain text files. Hadoop automatically
detects when files are compressed and will decompress them on the
fly when they are fed into Map instances, thus we did not need to
change our MR programs to use the compressed data. Despite the
longer load times (if one includes the splitting and compressing),
Hadoop using block-level compression slowed most the tasks by a
few seconds while CPU-bound tasks executed 50% slower.
We also tried executing the benchmarks using record-level compression. This required us to (1) write to a custom tuple object using Hadoop’s API, (2) modify our data loader program to transform
records to compressed and serialized custom tuples, and (3) refactor each benchmark. We initially believed that this would improve
CPU-bound tasks, because the Map and Reduce tasks no longer
needed to split the fields by the delimiter. We found, however, that
this approach actually performed worse than block-level compression while only compressing the data by 10%.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

5.1.3 อัดเกือบทุก DBMS ขนาน (รวม DBMS X และ Vertica)ช่วยให้การบีบอัดตัวของข้อมูล มันไม่ใช่เรื่องแปลกสำหรับการบีบอัดเพื่อทำให้ตัวของประหยัดพื้นที่ 6-10แสดงข้อมูลภายในของ Vertica สูงสุดสำหรับข้อมูลบีบอัด และมีเครื่องมือในการดำเนินการซึ่งดำเนินการโดยตรงกับบีบอัดข้อมูล (เช่น จึงหลีกเลี่ยงการขยายข้อมูลในระหว่างการประมวลผลเมื่อใดก็ ตามที่เป็นไปได้) ตั้งแต่การวิเคราะห์งานในขนาดใหญ่ทั่วไปชุดข้อมูลมัก I/O ผูก ขาย CPU วงจร (ต้องขยายข้อมูลป้อนเข้า) สำหรับแบนด์วิธ I/O (วิธีการบีบอัดข้อมูลว่า มีข้อมูลน้อยกว่าการอ่าน) เป็นกลยุทธ์ที่ดี และแปลการดำเนินการเร็วขึ้น ในกรณีที่ดำเนินการสามารถทำงานได้โดยตรง โดยบีบอัดข้อมูล มีเป็น trade-off ไม่ทั้งหมด และบีบอัดเป็นการชนะชัดเจนอย่างไร Hadoop และระบบแฟ้มแบบกระจายเป็นพื้นฐานสนับสนุนทั้งบีบอัด ระดับบล็อก และสิทธิในข้อมูลป้อนเข้า เราพบอย่างไรก็ตาม ว่า เทคนิคไม่ปรับปรุงอย่างไร Hadoop ของประสิทธิภาพและ ในการดำเนินการบางกรณีชะลอตัวจริง ยังต้องเพิ่มเติมความพยายามในส่วนของเราเปลี่ยนรหัส หรือเตรียมข้อมูลป้อนเข้ามันจะยังบันทึกว่า อัดยังใช้ในการเดิมนายเกณฑ์มาตรฐาน [8]การใช้การบีบอัดระดับบล็อกในอย่างไร Hadoop เราก่อนได้การแบ่งแฟ้มข้อมูลหลาย แฟ้มมีขนาดเล็กลงบนแต่ละโหนของท้องถิ่นระบบไฟล์ และการบีบอัดแล้ว ไฟล์แต่ละไฟล์ในการใช้เครื่องมือ gzip บีบอัดข้อมูลในลักษณะนี้แต่ละชุดข้อมูลลด 20-25%จากขนาดเดิม เหล่านี้รวมแล้วคัดลอกแฟ้มลงในHDFS เพียงว่าพวกแฟ้มข้อความล้วน อย่างไร Hadoop โดยอัตโนมัติตรวจพบเมื่อแฟ้มถูกบีบอัด และจะขยายไปในตัวบินเมื่อพวกเขาจะได้รับกรณีแผนที่ ดังนั้นเราไม่ต้องการเปลี่ยนโปรแกรมของนายเพื่อใช้บีบอัดข้อมูล แม้มีการโหลดอีกครั้ง (ถ้าหนึ่งมีการแบ่งและการบีบอัด),ใช้การบีบอัดระดับบล็อกอย่างไร Hadoop ชะลอตัวงานส่วนใหญ่โดยมีไม่กี่วินาทีในขณะที่ CPU ผูกงานดำเนินช้าลง 50%เรายังพยายามดำเนินการตามเกณฑ์มาตรฐานที่ใช้บีบอัดดับเรกคอร์ด นี้จำเป็นต้องให้ (1) เขียนวัตถุทูเพิลที่กำหนดเองโดยใช้ API ของอย่างไร Hadoop (2) โปรแกรมโหลดข้อมูลของเราแปลงปรับเปลี่ยนระเบียนการบีบอัด และทำให้อนุกรม tuples เอง และ (3) refactor มาตรฐาน เราเริ่มเชื่อว่าที่นี้จะปรับปรุงCPU-ขอบเขตงาน เนื่องจากแผนที่และลดงานไม่ต้องแบ่งฟิลด์ ด้วยตัวคั่น เราพบ อย่างไรก็ตาม ว่าวิธีการนี้ทำแย่กว่าบล็อกระดับการบีบอัดในขณะบีบอัดข้อมูลโดย 10% เท่านั้น

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

5.1.3
การบีบอัดเกือบทุกDBMS ขนาน (รวม DBMS-X และ Vertica)
ช่วยให้การบีบอัดที่ไม่จำเป็นของข้อมูลที่เก็บไว้ มันไม่ใช่เรื่องแปลกสำหรับการบีบอัดจะส่งผลให้เป็นปัจจัย 6-10 ประหยัดพื้นที่.
การแสดงข้อมูลภายใน Vertica
จะเพิ่มประสิทธิภาพสูงสำหรับข้อมูลการบีบอัดและการมีเครื่องมือการดำเนินการที่ดำเนินโดยตรงในการบีบอัดข้อมูล
(เช่นหลีกเลี่ยงคลายข้อมูลในระหว่างการประมวลผลเมื่อใดก็ตามที่ เป็นไปได้) โดยทั่วไปตั้งแต่งานวิเคราะห์ขนาดใหญ่ชุดข้อมูลมักจะมี I / O ที่ถูกผูกไว้รอบซื้อขาย CPU (ที่จำเป็นในการขยายการป้อนข้อมูล) I / O ที่ (การบีบอัดข้อมูลหมายความว่ามีข้อมูลน้อยกว่าการอ่าน) เป็นกลยุทธ์ที่ดีและแปล ที่จะดำเนินการได้เร็วขึ้น ในสถานการณ์ที่ผู้บริหารสามารถทำงานโดยตรงในการบีบอัดข้อมูลมีมักจะไม่มีการปิดเลยและการบีบอัดเป็นผู้ชนะที่ชัดเจน. Hadoop และการสนับสนุนระบบแฟ้มกระจายพื้นฐานทั้งระดับบล็อกและการบีบอัดระดับระเบียนในการป้อนข้อมูล เราพบแต่ไม่ว่าเทคนิคการปรับปรุงประสิทธิภาพการทำงานของ Hadoop และในบางกรณีชะลอการดำเนินการจริง นอกจากนี้ยังต้องเพิ่มเติมความพยายามในส่วนของเราให้รหัสการเปลี่ยนแปลงอย่างใดอย่างหนึ่งหรือเตรียมข้อมูลของท่าน. ก็ควรที่จะตั้งข้อสังเกตว่าการบีบอัดก็ยังไม่ได้ใช้ในการเดิมนายมาตรฐาน [8]. เพื่อที่จะใช้การบีบอัดระดับบล็อกใน Hadoop เรา ครั้งแรกที่มีการแยกไฟล์ข้อมูลลงในหลายไฟล์ขนาดเล็กในท้องถิ่นของแต่ละโหนดระบบไฟล์แล้วบีบอัดแต่ละไฟล์ใช้เครื่องมือgzip การบีบอัดข้อมูลในลักษณะนี้ลดลงข้อมูลแต่ละชุดโดย 20-25% จากขนาดเดิม การบีบอัดไฟล์เหล่านี้จะถูกคัดลอกแล้วเป็นHDFS เช่นเดียวกับถ้าพวกเขาเป็นไฟล์ข้อความธรรมดา Hadoop โดยอัตโนมัติตรวจพบเมื่อไฟล์บีบอัดและจะขยายพวกเขาในทันทีเมื่อมีการป้อนเข้ากรณีแผนที่ทำให้เราไม่จำเป็นต้องเปลี่ยนโปรแกรมMR ของเราที่จะใช้การบีบอัดข้อมูล แม้จะมีอีกต่อไปเวลาในการโหลด (ถ้ารวมถึงการแยกและการบีบอัด) Hadoop ใช้การบีบอัดระดับบล็อกชะลอตัวมากที่สุดในงานโดยไม่กี่วินาทีในขณะที่งานของCPU ที่ถูกผูกไว้ดำเนินการ 50% ช้า. นอกจากนี้เรายังพยายามดำเนินการมาตรฐานใช้การบีบอัดระดับระเบียน . เรื่องนี้ต้องให้เราสามารถ (1) เขียนไปยังวัตถุ tuple กำหนดเองโดยใช้ API ของ Hadoop (2) ปรับเปลี่ยนโปรแกรมการตักของเราที่จะเปลี่ยนข้อมูลที่บันทึกไปtuples กำหนดเองบีบอัดและต่อเนื่องและ (3) refactor มาตรฐานแต่ละ เราเริ่มเชื่อว่าเรื่องนี้จะปรับปรุงงานที่ถูกผูกไว้ CPU เพราะแผนที่และลดงานที่ไม่จำเป็นในการแยกสาขาโดยตัวคั่น เราพบ แต่ที่วิธีการนี้ดำเนินการจริงเลวร้ายยิ่งกว่าการบีบอัดระดับบล็อกขณะที่มีเพียงการบีบอัดข้อมูลโดย10%

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

5.1 การบีบอัด
เกือบทุกขนาน DBMS ( และรวมถึง dbms-x ฐาน )
ช่วยให้ตัวเลือกของการบีบอัดข้อมูลที่เก็บไว้ มันไม่ใช่เรื่องแปลกสำหรับการบีบอัดเพื่อผลในปัจจัยที่ 6 – 10 ประหยัดพื้นที่ .
ฐานภายในการแทนข้อมูลเป็นอย่างสูงที่เหมาะสำหรับการบีบอัดข้อมูล
และมีการเชื่อมโยงโดยตรงบนเครื่องยนต์
ข้อมูลที่ถูกบีบอัด ( เช่นมันหลีกเลี่ยง decompressing ข้อมูลในระหว่างการประมวลผลเมื่อใดก็ตามที่เป็นไปได้ ) ทั่วไป เนื่องจากงานในการวิเคราะห์ข้อมูลชุด
ขนาดใหญ่มักจะมี I / O ผูกรอบ CPU การซื้อขาย ( ต้องการขยายข้อมูล ) สำหรับ I / O แบนด์วิดท์ ( ข้อมูลที่ถูกบีบอัดหมายความว่า
ว่ามีข้อมูลน้อยที่จะอ่าน ) เป็นกลยุทธ์ที่ดีและแปล
ดำเนินการได้เร็วขึ้นในสถานการณ์ที่ผู้บริหารสามารถใช้งานได้โดยตรงในข้อมูลที่ถูกบีบอัด มักมีการแลกเปลี่ยนที่ไม่ทั้งหมดและการบีบอัดคือชนะ

Hadoop อ้างอิงชัดเจน และกระจายระบบไฟล์สนับสนุนทั้ง
ระดับบล็อกและการบีบอัดระดับการบันทึกข้อมูลเข้า เราพบ
อย่างไรก็ตาม ทั้งเทคนิคการปรับปรุงประสิทธิภาพ
Hadoop และในบางกรณีที่จริงชะลอการประหาร

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.