The SAI preconditioner is computed

The SAI preconditioner is computed in parallel on GPUs by allocating the computation of each column of M to one warp. Accelerating the SAI preconditioner involves local (per warp) parallelization of various computing kernels such as QR decomposition, dot products, sorting vector values, finding the maximum value in a vector, and so on. One of the major challenges in computing SAI precondi- tioners on GPUs is the limited size of global and shared memory and the generation of large data structures. Proposing techniques to reuse memory space and minimize the allocated memory to data structures in the kernel are key factors in producing SAI preconditioners for large problems on GPUs. In the following implementation details to overcome the above constraints and implement in parallel the computing kernels involved in solving Ax 1⁄4 b using SAI preconditioners are presented.
Computing the SAI preconditioner in parallel on GPUs involves the implementation of steps introduced in Fig. 1, which we implemented in a stage called Compute-GSAI (see Fig. 2). In this stage, every 32 threads (one warp) on the GPU computes one column of M (mk) by executing the steps in Fig. 1. Each warp first finds the dimensions of its corresponding A^ matrix (4) and assembles it. The local A^ matrices, which are very small compared to A, are then decomposed (local decompositions per warp for each A^) using the Gram Schmidt method [1] and mk is computed. SAI preconditioning on GPUs requires two additional steps (Pre-GSAI and Post-GSAI) which handle GPU memory allocation, define required data structures, gather results and determine the required number of kernel (hereafter kernel refers to a CUDA kernel) calls based on the problem size and available GPU memory. Thus, solving the Ax 1⁄4 b linear systems equations on the GPU using SAI precondi- tioners consists of four major steps (see Fig. 2):

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

Preconditioner ทรายคำนวณแบบขนานบน Gpu โดยการปันส่วนการคำนวณของแต่ละคอลัมน์ M เพื่อวาร์ปหนึ่ง เร่ง preconditioner ทรายเกี่ยวข้องกับ parallelization ท้องถิ่น (ต่อ warp) ของเมล็ดต่าง ๆ คอมพิวเตอร์ QR สลาย จุดผลิตภัณฑ์ การเรียงลำดับค่า หาค่าสูงสุดในเวกเตอร์ เวกเตอร์ และอื่น ๆ หนึ่งในความท้าทายที่สำคัญในคอมพิวเตอร์ precondi-tioners ทรายบน Gpu จะจำกัดขนาดของหน่วยความจำส่วนกลาง และใช้ร่วมกันและการสร้างโครงสร้างข้อมูลขนาดใหญ่ เสนอเทคนิคในการใช้พื้นที่หน่วยความจำ และลดหน่วยความจำปันส่วนไปยังข้อมูลโครงสร้างในเคอร์เนลเป็นปัจจัยสำคัญในการผลิตทราย preconditioners ปัญหาใหญ่ใน Gpu เมล็ดใช้คอมพิวเตอร์ที่เกี่ยวข้องในการแก้บีว่า Ax ใช้ทราย preconditioners จะนำเสนอในรายละเอียดดำเนินการต่อไปนี้ในการเอาชนะข้อจำกัดข้างต้น และใช้ควบคู่กันซึ่งเรานำมาใช้ในขั้นตอนการคำนวณ preconditioner ทรายขนานบน Gpu เกี่ยวข้องกับการดำเนินงานของขั้นตอนในรูปที่ 1 เรียกว่าคำนวณ GSAI (ดูรูปที่ 2) ในขั้นตอนนี้ ทุกเธรด 32 (warp หนึ่ง) บน GPU คำนวณคอลัมน์หนึ่งคอลัมน์ของ M (เอ็ม) โดยการดำเนินการขั้นตอนในรูปที่ 1 Warp แต่ละมิติของความสอดคล้องที่พบแรก ^ เมตริกซ์ (4) และประกอบมัน A ถิ่น ^ เมทริกซ์ ซึ่งมีขนาดเล็กมากเมื่อเทียบกับ A แล้วจะย่อยสลาย (decompositions ท้องถิ่นต่อ warp สำหรับแต่ละ A ^) ใช้วิธีชมิดท์กรัม [1] และเอ็มเคคำนวณ ทราย preconditioning บน Gpu 2 ขั้นเพิ่มเติม (Pre GSAI และ Post GSAI) ซึ่งจัดการการปันส่วนหน่วยความจำของ GPU กำหนดโครงสร้างข้อมูล รวบรวมผลลัพธ์ และกำหนดจำนวนเมล็ด (ต่อจากนี้เคอร์เนลอ้างถึงตัวเคอร์เนล CUDA) เรียกตามขนาดของปัญหาและ GPU หน่วยความจำ ดังนั้น การแก้สมการเชิงเส้นระบบ b ว่า Ax บน GPU ที่ใช้ทราย precondi-tioners ประกอบด้วยสี่ขั้นตอนหลัก (ดูรูป 2):

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

preconditioner SAI คำนวณในแบบคู่ขนานบน GPUs โดยการจัดสรรคำนวณคอลัมน์ M แต่ละให้เป็นหนึ่งวิปริต เร่ง preconditioner SAI เกี่ยวข้องกับท้องถิ่น (ต่อวิปริต) แบบขนานของเมล็ดคอมพิวเตอร์ต่างๆเช่น QR สลายตัวผลิตภัณฑ์ dot เรียงลำดับค่าเวกเตอร์การหาค่าสูงสุดในเวกเตอร์และอื่น ๆ หนึ่งในความท้าทายที่สำคัญในการคำนวณ SAI precondi- tioners บน GPUs เป็นขนาดที่ จำกัด ของโลกและหน่วยความจำที่ใช้ร่วมกันและการสร้างโครงสร้างข้อมูลที่มีขนาดใหญ่ เสนอเทคนิคที่จะนำมาใช้พื้นที่หน่วยความจำและลดหน่วยความจำที่จัดสรรให้กับโครงสร้างข้อมูลใน kernel เป็นปัจจัยสำคัญในการผลิต preconditioners SAI สำหรับปัญหาขนาดใหญ่บน GPUs ในรายละเอียดการปฏิบัติดังต่อไปนี้ที่จะเอาชนะข้อ จำกัด ข้างต้นและดำเนินการในแบบคู่ขนานเมล็ดคอมพิวเตอร์ที่เกี่ยวข้องในการแก้ Ax 1/4 B ใช้ preconditioners SAI จะถูกนำเสนอ.
การคำนวณ preconditioner SAI ในแบบคู่ขนานบน GPUs ที่เกี่ยวข้องกับการดำเนินการตามขั้นตอนที่นำมาใช้ในรูป 1 ซึ่งเราดำเนินการในขั้นตอนที่เรียกว่าการคำนวณ GSAI (ดูรูปที่. 2) ในขั้นตอนนี้ทุก 32 หัวข้อ (หนึ่งวิปริต) บน GPU คำนวณคอลัมน์หนึ่งของ M (MK) โดยการดำเนินการตามขั้นตอนในรูป 1. แต่ละวิปริตแรกพบว่าขนาดของมันที่สอดคล้องกัน ^ เมทริกซ์ (4) และมันมั่ง ท้องถิ่น a ^ เมทริกซ์ซึ่งมีขนาดเล็กมากเมื่อเทียบกับกำลังย่อยสลายแล้ว (สลายตัวในท้องถิ่นต่อวิปริตสำหรับแต่ละ a ^) โดยใช้วิธีแกรมชมิดท์ [1] และ MK คำนวณ SAI preconditioning บน GPUs ต้องใช้สองขั้นตอนเพิ่มเติม (Pre-GSAI และโพสต์ GSAI) ซึ่งจัดการจัดสรรหน่วยความจำ GPU กำหนดโครงสร้างข้อมูลที่ต้องการรวบรวมผลและกำหนดจำนวนที่ต้องการของเคอร์เนล (ต่อเคอร์เนลหมายถึงเมล็ด CUDA) โทรบนพื้นฐานของ ขนาดปัญหาและหน่วยความจำ GPU ใช้ได้ ดังนั้นการแก้สมการ Ax ระบบ 1/4 B เชิงเส้นกับ GPU โดยใช้ SAI precondi- tioners ประกอบด้วยสี่ขั้นตอนหลัก (ดูรูปที่ 2.)

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

สาย preconditioner จะคำนวณแบบขนานบน GPUs โดยจัดสรรการคำนวณของแต่ละคอลัมน์ของ M ไปหนึ่งแล้ว เร่งไทร preconditioner เกี่ยวข้องกับท้องถิ่น ( ต่อแล้ว ) parallelization ไปของเมล็ดข้าวคอมพิวเตอร์ต่างๆเช่น QR การสลายตัวผลิตภัณฑ์จุดเวกเตอร์ การเรียงลำดับค่า , การหาค่าสูงสุดในเวกเตอร์ , และดังนั้นบน หนึ่งในความท้าทายที่สำคัญในการคำนวณไทร precondi - tioners ในสุดมีขนาดจำกัดของโลกและหน่วยความจำที่ใช้ร่วมกันและสร้างโครงสร้างข้อมูลขนาดใหญ่ ขอเทคนิค การใช้พื้นที่หน่วยความจำและลดการจัดสรรหน่วยความจำโครงสร้างข้อมูลใน kernel เป็นปัจจัยสําคัญในการผลิตทราย preconditioners ปัญหาใหญ่สุด . ในการเอาชนะข้อ จำกัด ตามรายละเอียดข้างต้น และใช้ในการคำนวณที่เกี่ยวข้องในการแก้ปัญหาเมล็ดขนานขวาน 1 ⁄ 4 B ใช้ไทร preconditioners ถูกนำเสนอคอมพิวเตอร์ไซ preconditioner คู่ขนานบนสุดที่เกี่ยวข้องกับการใช้งานขั้นตอนแนะนำในรูปที่ 1 ซึ่งเราดำเนินการในขั้นตอนที่เรียกว่าคำนวณ gsai ( ดูรูปที่ 2 ) ในขั้นตอนนี้ทุก 32 กระทู้ ( Warp ) บน GPU คำนวณคอลัมน์หนึ่งของ M ( MK ) โดยดำเนินการตามขั้นตอนในรูปที่ 1 แต่ละบิดแรกพบว่ามิติของตนที่สอดคล้องกันเป็น ^ เมทริกซ์ ( 4 ) และประกอบมัน ท้องถิ่นเป็น ^ เมทริกซ์ซึ่งมีขนาดเล็กมากเมื่อเทียบกับ แล้วย่อยสลาย ( ท้องถิ่น decompositions ต่อวาปแต่ละ ^ ) ใช้กรัม Schmidt ) [ 1 ] และ MK จะคำนวณ . ไทร preconditioning ใน GPUs ต้องใช้สองขั้นตอนเพิ่มเติม ( ก่อน gsai และโพสต์ gsai ) ซึ่งดูแลการจัดสรรหน่วยความจำ GPU , กําหนดที่จำเป็นโครงสร้างข้อมูล รวบรวมผลและระบุจำนวนที่ต้องการของเคอร์เนล ( kernel ไปอ้างอิงถึง CUDA kernel ) เรียกตามขนาดของปัญหา GPU และหน่วยความจำที่ใช้ได้ ดังนั้น การแก้ไข ขวาน 1 ⁄ 4 B ระบบสมการเชิงเส้นบน GPU ใช้ไทร precondi - tioners ประกอบด้วย 4 ขั้นตอนหลัก ( ดูรูปที่ 2 )

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.