In addition to query execution, Sha

In addition to query execution, Shark also uses Spark’s execution
engine for distributed data loading. During loading, a table is split
into small partitions, each of which is loaded by a Spark task. The
loading tasks use the data schema to extract individual fields from
rows, marshal a partition of data into its columnar representation,
and store those columns in memory.
Each data loading task tracks metadata to decide whether each
column in a partition should be compressed. For example, the
loading task will compress a column using dictionary encoding
if its number of distinct values is below a threshold. This allows
each task to choose the best compression scheme for each partition,
rather than conforming to a global compression scheme that might
not be optimal for local partitions. These local decisions do not
require coordination among data loading tasks, allowing the load
phase to achieve a maximum degree of parallelism, at the small cost
of requiring each partition to maintain its own compression metadata.
It is important to clarify that an RDD’s lineage does not need
to contain the compression scheme and metadata for each partition.
The compression scheme and metadata are simply byproducts
of the RDD computation, and can be deterministically recomputed
along with the in-memory data in the case of failures.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

นอกจากการดำเนินการแบบสอบถาม ฉลามยังใช้การดำเนินการของจุดประกายโปรแกรมสำหรับโหลดข้อมูลแบบกระจาย ในระหว่างการโหลด ตารางแยกเป็นพาร์ทิชันขนาดเล็ก ซึ่งถูกโหลด โดยงานจุดประกาย ที่การโหลดงานใช้ schema ข้อมูลแยกจากแต่ละฟิลด์แถว พลเป็นพาร์ติชันข้อมูลของคอลัมน์การแสดงและคอลัมน์เหล่านั้นจัดเก็บในหน่วยความจำแต่ละงานโหลดข้อมูลติดตามข้อมูลเมตาในการตัดสินใจว่า แต่ละคอลัมน์ในพาร์ติชันจะถูกบีบ ตัวอย่าง การโหลดงานจะรวมคอลัมน์โดยใช้การเข้ารหัสพจนานุกรมถ้าค่าของจำนวนนี้มีขีดจำกัด นี้ช่วยให้แต่ละงานให้เลือกโครงร่างการบีบอัดดีที่สุดสำหรับแต่ละพาร์ติชันแทนที่สอดคล้องกับแบบสากลรวมที่อาจไม่ได้ดีที่สุดสำหรับพาร์ติชันเฉพาะ ตัดสินใจภายในเหล่านี้ไม่ต้องประสานงานระหว่างงาน โหลดทำให้โหลดข้อมูลขั้นตอนเพื่อให้บรรลุระดับสูงสุดของ parallelism ต้นทุนขนาดเล็กของให้แต่ละพาร์ติชันเพื่อรักษาข้อมูลเมตาของตัวเองบีบอัดจำเป็นต้องชี้แจงว่า ลินเนจเป็น RDD ไม่จำเป็นมีโครงร่างการบีบอัดและข้อมูลเมตาสำหรับแต่ละพาร์ติชันรวมโครงร่างและข้อมูลเมตาเป็นเพียงพลอยการคำนวณ RDD และสามารถเป็น deterministically recomputedพร้อมกับข้อมูลในหน่วยความจำในกรณีของความล้มเหลว

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

นอกเหนือจากการสอบถามการดำเนินการฉลามยังใช้การดำเนินการของ Spark
เครื่องมือสำหรับการโหลดข้อมูลกระจาย
ในระหว่างการโหลดตารางถูกแบ่งออกเป็นพาร์ทิชันขนาดเล็กแต่ละแห่งซึ่งจะเต็มไปด้วยงานที่จุดประกาย งานโหลดใช้สคีข้อมูลที่จะดึงบุคคลจากสาขาแถวผนึกกำลังพาร์ทิชันของข้อมูลลงในคอลัมน์การแสดงตนและเก็บคอลัมน์ผู้ที่อยู่ในหน่วยความจำ. แต่ละโหลดข้อมูลงานติดตามเมตาดาต้าที่จะตัดสินใจว่าแต่ละคอลัมน์ในพาร์ทิชันควรจะถูกบีบอัด ยกตัวอย่างเช่นงานโหลดจะบีบอัดคอลัมน์ใช้การเข้ารหัสพจนานุกรมถ้าจำนวนของค่าที่แตกต่างกันอยู่ด้านล่างเกณฑ์ นี้จะช่วยให้งานแต่ละงานที่จะเลือกรูปแบบการบีบอัดที่ดีที่สุดสำหรับแต่ละพาร์ทิชันมากกว่าที่สอดคล้องกับรูปแบบการบีบอัดระดับโลกที่อาจไม่เหมาะสมสำหรับพาร์ทิชันท้องถิ่น การตัดสินใจในท้องถิ่นเหล่านี้ไม่จำเป็นต้องมีการประสานงานระหว่างข้อมูลงานโหลดที่ช่วยให้การโหลดขั้นตอนเพื่อให้บรรลุระดับสูงสุดของความเท่าเทียมที่ค่าใช้จ่ายเล็กต้องใช้แต่ละพาร์ติชันที่จะรักษาmetadata การบีบอัดของตัวเอง. มันเป็นสิ่งสำคัญที่จะชี้แจงว่าเชื้อสาย RDD ของไม่ได้ ต้องการที่จะมีแบบการบีบอัดและข้อมูลสำหรับแต่ละพาร์ทิชัน. โครงการการบีบอัดและเมตาดาต้าเป็นเพียงผลพลอยได้ของการคำนวณ RDD และสามารถ recomputed deterministically พร้อมกับข้อมูลในหน่วยความจำในกรณีของความล้มเหลว

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

นอกจากการประหารฉลามยังใช้หัวเทียนประหาร
เครื่องยนต์ เพื่อกระจายการโหลดข้อมูล ระหว่างการโหลด โต๊ะมันแยก
เป็นพาร์ทิชันเล็กแต่ละที่โหลดโดยจุดประกายงาน
โหลดงานใช้ข้อมูล schema เพื่อดึงข้อมูลแต่ละแถวจาก
, มาร์แชล พาร์ทิชันของข้อมูลในคอลัมน์ของการเป็นตัวแทน และคอลัมน์ในร้านนั้น

หน่วยความจำข้อมูลโหลดเพลงของแต่ละงานเพื่อตัดสินใจว่า แต่ละ
คอลัมน์ในพาร์ทิชันจะบีบอัด ตัวอย่างเช่น
โหลดงานจะบีบอัดเสาโดยใช้พจนานุกรมเข้ารหัส
ถ้าจำนวนของค่าที่แตกต่างกันคือ ด้านล่างของประตู นี้จะช่วยให้
แต่ละงานที่จะเลือกที่ดีที่สุดรูปแบบการบีบอัดสำหรับแต่ละพาร์ทิชัน
มากกว่าสอดคล้องกับประกาศโครงการที่อาจ
การบีบอัดไม่เหมาะที่สุดสำหรับพาร์ทิชันในท้องถิ่น การตัดสินใจในท้องถิ่นเหล่านี้ไม่ต้องมีการประสานงานระหว่างการโหลดข้อมูลงาน

เฟสให้โหลดเพื่อให้บรรลุระดับของความสูงที่ค่าใช้จ่ายของแต่ละพาร์ทิชันขนาดเล็ก
ที่ต้องการรักษาข้อมูลที่บีบอัดของตนเอง .
มันเป็นสิ่งสำคัญที่จะชี้แจงว่าเป็น rdd สายเลือดไม่ต้อง
มีโครงการและเมตาดาต้าการบีบอัด สำหรับแต่ละฉาก
การบีบอัดและเมตาดาต้าเป็นเพียงผลพลอยได้
โครงการของ rdd การคำนวณและสามารถ deterministically recomputed
พร้อมกับข้อมูลในหน่วยความจำในกรณีของความล้มเหลว

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.