Copy A to GPU. Sparse matrices are

Copy A to GPU. Sparse matrices are stored in memory using various compressed sparse storage formats such as CSR, CSC, and so on [39]. To compute the SAI preconditioner, the A matrix is initially stored in CSC format using three vectors called Avalue, Aindex, and Apointer. The M matrix is also produced and stored in columns. A copy of the A matrix is transferred to GPU global memory.
Compute n1 and n2 and allocate memory to M. The precondi- tioner M is stored in global memory, thus memory should be allocated to M prior to the Compute-GSAI stage. Although the dimensions of M are the same as A it has to be stored in compressed format to fit on the GPU global memory. To reduce the amount of computation required to locate data structures used by each warp and regularize global memory accesses, equal memory space is allocated to each column of M using the compute dimensions kernel (see Fig. 2). The proposed memory allocation technique, introduces the need for the Post-GSAI step described in the next section, whose execution time is, however, negligible compared to Compute- GSAI as shown in the results section (see Section 4) and to the provided benefits. The kernel first finds the dimensions of local A^ matrices (n1 , n2 ) and stores them on global memory and the maximum n1 and n2 values between all columns (called n1;max and n2;max) are then found. Since the number of nonzeros in the largest column of M is equal to n2;max, global memory allocated to M would be equal to the number of columns in M multiplied by the number of bytes required to store n2;max floating point values ðMvalue). The row indices corresponding to the values of the preconditioner (Mindex) and the number of nonzeros produced for each column of M (Mpointer) are stored in global memory. Besides allocating memory to the preconditioner M, the allocate memory step of the Pre-GSAI stage (see Fig. 2) assigns memory space to other data structures used during the computation of the SAIpreconditioner (Compute-GSAI) and determines the number of kernel calls required to compute the SAI preconditioner. Details of these implementations are presented in Section 3.2 and Table 1.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

คัดลอก A ไป GPU ห่างเมทริกซ์จะถูกเก็บไว้ในหน่วยความจำที่ใช้เก็บข้อมูลห่างบีบอัดรูปแบบต่าง ๆ เช่น CSR, CSC และอื่น ๆ [39] คำนวณ preconditioner ทราย เมตริกซ์ A ตอนแรกเก็บไว้ในรูปแบบของ CSC โดยใช้เวกเตอร์สามเรียกว่า Avalue, Aindex และ Apointer เมทริกซ์ M ถูกผลิต และเก็บไว้ในคอลัมน์ สำเนาของเมตริกซ์ A จะโอนย้ายไปหน่วยความจำส่วนกลางของ GPUคำนวณ n1 และ n2 และปันส่วนหน่วยความจำ M M precondi tioner ถูกเก็บไว้ในหน่วยความจำระดับโลก จึง ควรปันส่วนหน่วยความจำม.ก่อนขั้นตอนการคำนวณ GSAI แม้ว่าขนาดของ M ให้มีการจัดเก็บในรูปแบบบีบอัดให้พอดีกับ GPU หน่วยความจำระดับโลกเหมือนกัน เพื่อลดปริมาณการคำนวณที่ต้องการค้นหาโครงสร้างข้อมูลที่ใช้ โดยแต่ละ warp และ regularize เข้าถึงหน่วยความจำส่วนกลาง พื้นที่หน่วยความจำเท่ากับมีการปันส่วนแต่ละคอลัมน์ของ M ใช้เคอร์เนลขนาดคำนวณ (ดูรูปที่ 2) เทคนิคการปันส่วนหน่วยความจำที่นำเสนอ แนะนำที่จำเป็นสำหรับขั้นตอนการโพสต์ GSAI ที่อธิบายไว้ในส่วนถัดไป เวลาที่มีการดำเนินการ อย่างไรก็ตาม เล็กน้อยเมื่อเทียบกับคำนวณ - GSAI ตามที่แสดงในส่วนของผลลัพธ์ (ดูส่วนที่ 4) และ เพื่อประโยชน์ให้ เคอร์เนลแรกพบว่ามิติของท้องถิ่น ^ เมทริกซ์ (n1, n2) และเก็บไว้ในหน่วยความจำส่วนกลาง และสูงสุด n1 และ n2 ค่าระหว่างคอลัมน์ทั้งหมด (เรียกว่า n1 สูงสุด และ n2 สูงสุด) แล้วพบกัน ตั้งแต่หมายเลข nonzeros ในคอลัมน์ที่ใหญ่ที่สุดของ M เท่ากับ n2 สูงสุด หน่วยความจำระดับโลกเป็น M จะเท่ากับจำนวนคอลัมน์ใน M คูณ ด้วยจำนวนไบต์ที่ต้องการใช้เก็บ n2 จุดลอยตัวที่สูงค่า ðMvalue) ดัชนีแถวที่ตรงกับค่าของ preconditioner (Mindex) และจำนวนของ nonzeros ที่ผลิตสำหรับแต่ละคอลัมน์ของ M (Mpointer) จะถูกเก็บไว้ในหน่วยความจำส่วนกลาง นอกจากการปันส่วนหน่วยความจำ preconditioner M ขั้นตอนหน่วยความจำปันส่วนของขั้นตอนก่อน-GSAI (ดูรูป 2) กำหนดหน่วยความจำพื้นที่โครงสร้างข้อมูลอื่น ๆ ใช้ในระหว่างการคำนวณของ SAIpreconditioner (คำนวณ-GSAI) และกำหนดจำนวนของการเรียกเคอร์เนลจำเป็นต้องคำนวณ preconditioner ทราย รายละเอียดของการใช้งานเหล่านี้จะนำเสนอในส่วนที่ 3.2 และตารางที่ 1

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

คัดลอกกับ GPU การฝึกอบรมเบาบางจะถูกเก็บไว้ในหน่วยความจำโดยใช้การบีบอัดในรูปแบบการจัดเก็บเบาบางต่างๆเช่นความรับผิดชอบต่อสังคม, CSC, และอื่น ๆ [39] การคำนวณ preconditioner ไทรเมทริกซ์จะถูกเก็บไว้ในรูปแบบแรก CSC ใช้สามเวกเตอร์ที่เรียกว่า Avalue, Aindex และ Apointer เอ็มเมทริกซ์ยังมีการผลิตและเก็บไว้ในคอลัมน์ สำเนาของเมทริกซ์จะถูกโอนไป GPU หน่วยความจำระดับโลก.
คำนวณ N1 และ N2 และการจัดสรรหน่วยความจำเพื่อเอ็ม tioner precondi- M จะถูกเก็บไว้ในหน่วยความจำระดับโลกดังนั้นหน่วยความจำควรจะจัดสรรให้ M ก่อนที่จะมีขั้นตอนการคำนวณ GSAI แม้ว่าขนาดของ M เป็นเช่นเดียวกับมันจะต้องมีการจัดเก็บในรูปแบบการบีบอัดเพื่อให้พอดีกับหน่วยความจำระดับโลกของ GPU เพื่อลดปริมาณของการคำนวณที่จำเป็นในการหาโครงสร้างข้อมูลที่ใช้โดยแต่ละวิปริตและระเบียบของหน่วยความจำระดับโลกเข้าถึงพื้นที่หน่วยความจำที่เท่ากันจะจัดสรรให้คอลัมน์ M แต่ละมิติโดยใช้การคำนวณเคอร์เนล (ดูรูปที่. 2) เทคนิคการจัดสรรหน่วยความจำที่นำเสนอแนะนำความจำเป็นในการขั้นตอนโพสต์ GSAI อธิบายไว้ในส่วนถัดไปที่มีเวลาการดำเนินการคืออย่างไรเล็กน้อยเมื่อเทียบกับ Compute- GSAI ตามที่แสดงในส่วนของผลการค้นหา (ดูมาตรา 4) และเพื่อผลประโยชน์ที่ . เคอร์เนลแรกพบว่าขนาดของท้องถิ่น ^ เมทริกซ์ (N1, N2) และเก็บไว้ในหน่วยความจำระดับโลกและค่า N1 และ N2 สูงสุดระหว่างคอลัมน์ทั้งหมด (เรียกว่า N1; แม็กซ์และ N2; แม็กซ์) พบแล้ว เนื่องจากจำนวนของ nonzeros ในคอลัมน์ที่ใหญ่ที่สุดของ M เท่ากับ N2; max, ที่มีหน่วยความจำระดับโลกที่จัดสรรให้กับ M จะเท่ากับจำนวนของคอลัมน์ในเอ็มคูณด้วยจำนวนไบต์ที่จำเป็นต้องใช้ในการจัดเก็บ N2 นั้นแม็กซ์จุดลอยค่าðMvalue) . ดัชนีแถวที่สอดคล้องกับค่านิยมของ preconditioner (Mindex) และจำนวน nonzeros ผลิตสำหรับคอลัมน์ของ M (Mpointer) แต่ละจะถูกเก็บไว้ในหน่วยความจำระดับโลก นอกจากจัดสรรหน่วยความจำไปยัง preconditioner M, จัดสรรขั้นตอนความทรงจำของขั้นตอนก่อนการ GSAI (ดูรูปที่. 2) กำหนดพื้นที่หน่วยความจำให้กับโครงสร้างข้อมูลอื่น ๆ ที่ใช้ในระหว่างการคำนวณของ SAIpreconditioner (คำนวณ GSAI) และกำหนดจำนวนของสายเคอร์เนล ที่จำเป็นในการคำนวณ preconditioner SAI รายละเอียดของการใช้งานเหล่านี้จะถูกนำเสนอในส่วน 3.2 และตารางที่ 1

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.