Parallel Hash JoinA hash-based refi

Parallel Hash Join

A hash-based refinement of the approach offers improved performance. The main observation is that if A and B are very large, and the number of partitions k is chosen to be equal to the number of processors n, the size of each partition may still be large, leading to a high cost for each local join at the n processors.

An alternative is to execute the smaller joins

the other, but with each join executed in parallel using all processors. This approach allowsus to utilize the total available main memory at all n processors in each join Ai Bi and is described in more detail as follows:

1. At each site, apply a hash function h1 to partition the A and B tuples at this site into partitions i =1 :::k. Let A be the smaller relation. The number of partitions k is chosen such that each partition of A ts into the aggregate or combined memory of all n processors.

2. For i =1 ...k, process the join of the ith partitions of A and B. To compute Ai Bi , do the following at every site:

(a) Apply a second hash function h2toall Ai tuples to determine where they should be joined and send tuple t to site h2(t).

(b) As Ai tuples arrive to be joined, add them to an in-memory hash table.

(c) After all Ai tuples have been distributed, apply h2 to Bi tuples to determine where they should be joined and send tuple t to site h2(t).

(d) As Bi tuples arrive to be joined, probe the in-memory table of Ai tuples and output result tuples.

The use of the second hash function h2 ensures that tuples are (more or less) uniformly distributed across all n processors participating in the join. This approach greatly reduces the cost for each of the smaller joins and therefore reduces the overall join cost. Observe that all available processors are fully utilized, even though the smaller joins are carried out one after the other.

Parallel Hash Join

A hash-based refinement of the approach offers improved performance. The main observation is that if A and B are very large, and the number of partitions k is chosen to be equal to the number of processors n, the size of each partition may still be large, leading to a high cost for each local join at the n processors.

An alternative is to execute the smaller joins

the other, but with each join executed in parallel using all processors. This approach allowsus to utilize the total available main memory at all n processors in each join Ai Bi and is described in more detail as follows:

1. At each site, apply a hash function h1 to partition the A and B tuples at this site into partitions i =1 :::k. Let A be the smaller relation. The number of partitions k is chosen such that each partition of A ts into the aggregate or combined memory of all n processors.

2. For i =1 ...k, process the join of the ith partitions of A and B. To compute Ai Bi , do the following at every site:

(a) Apply a second hash function h2toall Ai tuples to determine where they should be joined and send tuple t to site h2(t).

(b) As Ai tuples arrive to be joined, add them to an in-memory hash table.

(c) After all Ai tuples have been distributed, apply h2 to Bi tuples to determine where they should be joined and send tuple t to site h2(t).

(d) As Bi tuples arrive to be joined, probe the in-memory table of Ai tuples and output result tuples.

The use of the second hash function h2 ensures that tuples are (more or less) uniformly distributed across all n processors participating in the join. This approach greatly reduces the cost for each of the smaller joins and therefore reduces the overall join cost. Observe that all available processors are fully utilized, even though the smaller joins are carried out one after the other.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

แบบขนานร่วมแฮ

รีไฟน์เมนท์เป็นแฮตามวิธีให้ประสิทธิภาพดีขึ้น สังเกตหลักมีว่า ถ้า A และ B มีขนาดใหญ่มาก และจำนวนของพาร์ติชัน k ที่ให้เท่ากับจำนวน n ตัวประมวลผล ขนาดของพาร์ติชันแต่ละอาจยังคงมีขนาดใหญ่ นำต้นทุนที่สูงสำหรับการรวมท้องถิ่นแต่ละที่ n โปรเซสเซอร์

ทางเลือกจะดำเนินการรวมเล็ก

อีก, แต่ โดยรวมแต่ละดำเนินการควบคู่กันโดยใช้ตัวประมวลผลทั้งหมด Allowsus วิธีการนี้ใช้การรวมหลักหน่วยความจำที่โปรเซสเซอร์ทั้งหมด n ในแต่ละรวม Ai Bi และอธิบายในรายละเอียดดังนี้:

1 ในแต่ละไซต์ ใช้ h1 เป็นฟังก์ชันแฮการพาร์ทิชัน tuples A และ B ที่เป็นพาร์ทิชันฉัน = 1::: คุณให้ A มีความสัมพันธ์ที่มีขนาดเล็กลง เลือกจำนวนของพาร์ติชัน k ให้แต่ละพาร์ติชันของ ts เป็นหน่วยความจำรวม หรือรวมของทั้งหมด n โปรเซสเซอร์

2 หา = 1... k กระบวนการรวมกั้นระยะของ A และเกิด คำนวณ Ai Bi อย่าใช้ทุก site:

(a) ใช้เป็นสองแฮฟังก์ชัน h2toall Ai tuples เพื่อกำหนดที่พวกเขาควรเข้าร่วม และส่ง t ทูเพิลเพื่อเว็บไซต์ h2(t).

(ข) เป็น tuples ไอถึงจะสามารถเข้าร่วม การมี table.

(c) แฮในหน่วยความจำหลังจาก tuples Ai ทั้งหมดกระจายแล้ว ใช้ h2 การ tuples Bi เพื่อกำหนดที่พวกเขาควรเข้าร่วม และส่ง t ทูเพิลเพื่อเว็บไซต์ h2(t).

(d) เป็น Bi tuples ถึงจะเข้าร่วม โพรบตารางในหน่วยความจำของ Ai tuples และผลผลิตผลลัพธ์ tuples

ใช้ h2 ฟังก์ชันแฮสองใจว่า tuples สม่ำเสมอเมื่อเทียบเคียง (น้อย) กระจายทั่วโปรเซสเซอร์ n ทั้งหมดที่เข้าร่วมในการ วิธีการนี้ลดต้นทุนสำหรับแต่ละรวมขนาดเล็กมาก และจึง ช่วยลดต้นทุนรวมโดยรวม สังเกตเห็นว่า มีตัวประมวลผลมีประโยชน์ แม้รวมขนาดเล็กดำเนินการหนึ่งหลังจากอื่น ๆ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

แฮขนานเข้าร่วมการปรับแต่งกัญชาตามวิธีการที่มีประสิทธิภาพดีขึ้น สังเกตที่สำคัญคือว่าถ้า A และ B มีขนาดใหญ่มากและจำนวนของพาร์ทิชัน k ได้รับการแต่งตั้งจะเท่ากับจำนวนตัวประมวลผล n, ขนาดของแต่ละพาร์ทิชันที่อาจจะยังคงมีขนาดใหญ่ที่นำไปสู่ค่าใช้จ่ายสูงสำหรับแต่ละท้องถิ่นเข้าร่วม ที่โปรเซสเซอร์ n ทางเลือกคือการดำเนินการขนาดเล็กร่วมอื่น ๆ แต่ด้วยกันเข้าร่วมดำเนินการในการประมวลผลแบบขนานที่ใช้ทั้งหมด allowsus วิธีการนี้จะใช้หน่วยความจำหลักทั้งหมดที่มีหน่วยประมวลผลที่ n ทั้งหมดในแต่ละเข้าร่วม Ai Bi และมีการอธิบายในรายละเอียดเพิ่มเติมดังนี้1 ที่แต่ละเว็บไซต์นำ h1 ฟังก์ชันแฮชพาร์ทิชันและ B tuples ที่เว็บไซต์นี้เป็นพาร์ทิชัน i = 1 ::: k ให้เป็นความสัมพันธ์ที่มีขนาดเล็ก จำนวนพาร์ทิชัน k ได้รับการแต่งตั้งดังกล่าวว่าพาร์ทิชันของทีเอสในแต่ละหน่วยความจำรวมหรือรวมกันของการประมวลผลทั้งหมด n 2 สำหรับ i = 1 ... k กระบวนการร่วมของพาร์ทิชันที่ i ของ A และ B การคำนวณ Ai Bi ทำต่อไปนี้ในทุกเว็บไซต์: (ก) สมัคร h2toall ฟังก์ชันแฮชที่สองสิ่งอันดับ Ai เพื่อตรวจสอบที่พวกเขาควรจะเป็น เข้าร่วมและส่ง tuple ทีจะ h2 เว็บไซต์ (t) (ข) ในฐานะที่เป็นสิ่งอันดับ Ai มาถึงที่จะเข้าร่วมเพิ่มให้ตารางแฮชในหน่วยความจำ(c) หลังจากที่ทุกสิ่งอันดับ Ai ได้รับการกระจายการใช้ h2 tuples Bi ไป ตรวจสอบที่พวกเขาควรจะเข้าร่วมและส่ง tuple ทีจะ h2 เว็บไซต์ (t) (ง) เป็นสิ่งอันดับสองมาถึงที่จะเข้าร่วมแสดงความคิดเห็นของตารางในหน่วยความจำของสิ่งอันดับ Ai และผลที่ออก tuples ใช้กัญชา h2 ฟังก์ชั่นที่สอง เพื่อให้แน่ใจว่าสิ่งอันดับจะถูก (มากหรือน้อย) กระจายทั่วโปรเซสเซอร์ n ทั้งหมดที่เข้าร่วมในการเข้าร่วม วิธีการนี้จะช่วยลดค่าใช้จ่ายสำหรับแต่ละขนาดเล็กเข้าร่วมและดังนั้นจึงช่วยลดค่าใช้จ่ายโดยรวมของการเข้าร่วม สังเกตว่าการประมวลผลที่มีอยู่ทั้งหมดจะใช้อย่างเต็มที่แม้ว่าจะมีขนาดเล็กร่วมจะดำเนินการอย่างใดอย่างหนึ่งหลังจากที่อื่น ๆ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ขนาน hash เข้าร่วม

กัญชาตามการปรับแต่งของวิธีการเสนอการปรับปรุงประสิทธิภาพ การสังเกตเป็นหลักว่า ถ้า A และ B มีขนาดใหญ่มากและจำนวนของพาร์ทิชัน K เลือกจะเท่ากับจำนวนของการประมวลผล , ขนาดของแต่ละพาร์ทิชันอาจจะมีขนาดใหญ่ที่นำไปสู่ค่าใช้จ่ายสูงของแต่ละท้องถิ่นเข้าร่วมใน N )

ทางเลือกคือการขนาดเล็ก

รวมๆแต่กับแต่ละเข้าร่วมดำเนินการในขนานที่ใช้โปรเซสเซอร์ วิธีการนี้ allowsus ที่จะใช้ทั้งหมดของหน่วยความจําหลักทั้งหมด N โปรเซสเซอร์ในแต่ละเข้าร่วมไอบีและอธิบายในรายละเอียดเพิ่มเติมดังนี้

1 ที่แต่ละเว็บไซต์ ใช้กับพาร์ทิชันฟังก์ชันแฮช H1 A และ B ทูเปิลที่ไซต์นี้เป็นพาร์ทิชัน = 1 : : : K . ปล่อยให้เป็นขนาดเล็กความสัมพันธ์จำนวนของพาร์ทิชัน K เลือกเช่นที่แต่ละพาร์ทิชันของ TS เข้ารวม หรือหน่วยความจำรวม ) n .

2 สำหรับฉัน = 1 . . . . . . . k , กระบวนการร่วมของ ith พาร์ทิชันของ A และ B ให้คำนวณไอบี ทำตามที่ทุกไซต์ :

( ) ใช้แฮชฟังก์ชันที่สอง h2toall AI ที่มีการตรวจสอบที่พวกเขาควรจะเข้าร่วมและส่งทูเปิล t ไซต์ H2

( T )( ข ) เป็นไอที่มีมาถึงจะได้เพิ่มเข้าไปในตารางแฮชความทรงจำ

( C ) หลังจากที่มี AI ทั้งหมดมีการกระจายที่ใช้ H2 กับบีที่มีการตรวจสอบที่พวกเขาควรจะเข้าร่วมและส่งทูเปิล t ไซต์ H2 ( T )

( D ) บีทูเปิลมาถึงจะร่วมสอบสวนในหน่วยความจำของ AI ที่มีตารางและผล

ที่มีผลใช้ของ H2 ฟังก์ชันแฮชที่สองเพื่อให้แน่ใจว่า ทูเปิล ( มากหรือน้อย ) ขึ้นกระจายทั่วทุก N processors เข้าร่วมเข้าร่วม วิธีการนี้จะช่วยลดต้นทุนของแต่ละขนาดเล็กรวมและดังนั้นจึงช่วยลดต้นทุนรวมโดยรวม สังเกตว่า ตัวที่มีอยู่ทั้งหมดจะใช้ประโยชน์อย่างเต็มที่ ถึงแม้จะเล็กกว่าจะดำเนินการอย่างใดอย่างหนึ่งหลังจากที่อื่น ๆ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.