in [25] and [36]. If an effective s

in [25] and [36]. If an effective sparsification is known for a specific problem it can be added to the Pre-GSAI stage (see Fig. 2) in the GSAI method proposed.
Most of the work on SAI preconditioners presents techniques to parallelize the computation of the precondi- tioner on multiprocessor architectures [5], [6], [7], [8], [9], [10], [11], [12], [13], by distributing the computation of the columns in M between multiple processors. Techniques such as grouping communications [11], dictionary-based methods [8] and latency-tolerant hybrid SAI precondition- ing [10] are proposed in these work, to further enhance the execution time of SAI preconditioners on multiprocessors. ParaSails [7] and SPAI 3.2 [21] are two of the most popular open source implementations of the sparse approximate inverse preconditioner on single- and multiprocessor plat- forms and are used for comparison in a majority of previous work [4], [6], [8], [10]. While ParaSails uses a priori approximation of M to generate the preconditioner, both adaptive and static SAI preconditioners are implemented in SPAI 3.2. Similar to SPAI 3.2 the preconditioned problem in GSAI is solved using the BiCGStab iterative solver (ParaSails implements the GMRES and CG iterative solvers). Chow [6] compares the performance of ParaSails to SPAI 3.2 and shows ParaSails generates the SAI preconditioner consider- ably faster than SPAI 3.2. We compare the GSAI precondi- tioner generation time on GPUs to ParaSails on single- and multiprocessor platforms.
Although parallelizing sparse approximate inverse pre- conditioners on more than one processor has been exten- sively studied in previous work which succeeded to enhance the execution speed of such preconditioners considerably, few works have studied the possibility of accelerating these preconditioners on multi/many core architectures. Gravvanis et al. [14], [15] attempt to accelerate a SAI preconditioned BiCGStab iterative solver on Intel multicore architecture by allocating the computation of each iteration of the iterative solver to a different thread; implementation details on how to accelerate the preconditioner computation on a multicore are not presented in this work. Xu et al. [16] accelerate factorized SAI on NVIDIA GPUs. The paper mainly describes how to accelerate the sparse matrix vector multiplication kernel (SpMV) in the iterative solver but details for computing the SAI preconditioner have not been
presented (other accelerations of the SpMV kernel are presented in [37], and [38] and CUSPARSE [41]).

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ใน [25] และ [36] ถ้า sparsification ที่มีประสิทธิภาพสำหรับปัญหาเฉพาะ มันสามารถเพิ่มขั้นตอนก่อน-GSAI (ดูรูป 2) ในการ GSAI วิธีการนำเสนอได้ส่วนใหญ่ทำงานไทร preconditioners นำเสนอเทคนิคการ parallelize ี tioner precondi บนมัลติโปรเซสเซอร์สถาปัตยกรรม [5], [6], [7], [8], [9], [10], [11], [12], [13], โดยการกระจายการคำนวณของคอลัมน์ในระหว่างโปรเซสเซอร์หลายตัว เทคนิคเช่นจัดกลุ่มสื่อสาร [11], พจนานุกรมตามวิธี [8] และไฮบริดสลี tolerant แฝง SAI เงื่อนไข-ing [10] มีการนำเสนอในการทำงานเหล่านี้ เพื่อเพิ่มเวลาการดำเนินการของ preconditioners ทรายบนนี้ ParaSails [7] และ 3.2 SPAI [21] เป็นของนิยมมาเปิดดำเนินการห่างประมาณ preconditioner ผกผันเดี่ยวและมัลติโปรเซสเซอร์ plat-ฟอร์ม และใช้สำหรับเปรียบเทียบความก่อนหน้าทำงาน [4], [6], [8], [10] ParaSails ใช้เป็น priori ประมาณเมตรสร้างที่ preconditioner, preconditioners ทรายทั้งปรับ และคงจะดำเนินการใน SPAI 3.2 คล้ายกับ SPAI 3.2 ปัญหา preconditioned ใน GSAI จะแก้ไขใช้ BiCGStab iterative solver (ParaSails ดำเนินการ GMRES และ CG แก้ซ้ำ) เปรียบเทียบประสิทธิภาพของ ParaSails เป็น SPAI 3.2 เชาว์ [6] และแสดง ParaSails สร้าง preconditioner ทรายพิจารณา - ครอบเร็วกว่า SPAI 3.2 เราเปรียบเทียบ GSAI precondi-tioner ในเวลารุ่น Gpu ไป ParaSails บนแพลตฟอร์ม แบบเดี่ยว และมัลติโปรเซสเซอร์แม้ว่า parallelizing ห่างประมาณผกผันก่อนปรับบนตัวประมวลผลมากกว่าหนึ่งได้รับ exten-ซึ่งแตกต่างในงานก่อนหน้าซึ่งประสบความสำเร็จเพื่อเพิ่มความเร็วในการดำเนินการของ preconditioners ดังกล่าวอย่างมาก ทำงานน้อยได้ศึกษาโอกาสเร่ง preconditioners เหล่านี้บนสถาปัตยกรรมหลาย/หลายหลัก Gravvanis et al. [14], [15] พยายามเร่งไทรที่ preconditioned บนสถาปัตยกรรม Intel multicore solver iterative BiCGStab โดยการปันส่วนการคำนวณของแต่ละซ้ำของ solver ซ้ำกับเธรดอื่น รายละเอียดการใช้งานการเร่งคำนวณ preconditioner บนแบบ multicore จะไม่แสดงในงานนี้ Xu et al. [16] เร่ง factorized ทรายบน NVIDIA GPUs กระดาษส่วนใหญ่อธิบายวิธีการเร่งเคอร์เนลเวกเตอร์การคูณเมทริกซ์เบาบาง (SpMV) ใน solver ซ้ำ แต่รายละเอียดสำหรับคอมพิวเตอร์ preconditioner ทรายไม่ได้นำเสนอ (เร่งอื่น ๆ ของเคอร์เนล SpMV หรือั [37], และ [38] และ CUSPARSE [41])

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ใน [25] และ [36] หาก sparsification ที่มีประสิทธิภาพเป็นที่รู้จักสำหรับปัญหาที่เฉพาะเจาะจงที่จะสามารถเพิ่มเข้าไปในขั้นตอนก่อนการ GSAI (ดูรูปที่. 2) ในวิธีการที่นำเสนอ GSAI.
ส่วนใหญ่ของการทำงานใน preconditioners SAI นำเสนอเทคนิคในการคำนวณคู่ขนานของ tioner precondi- สถาปัตยกรรมมัลติ [5] [6] [7] [8] [9] [10] [11] [12] [13] โดยการกระจายการคำนวณของคอลัมน์ในเอ็มระหว่างหลาย ๆ โปรเซสเซอร์ เทคนิคต่าง ๆ เช่นการจัดกลุ่มการสื่อสาร [11] วิธีการตามพจนานุกรม [8] และไฮบริดแฝงใจกว้าง SAI precondition- ไอเอ็นจี [10] มีการเสนอในการทำงานเหล่านี้เพื่อส่งเสริมการดำเนินการของเวลา preconditioners SAI ในมัลติ ParaSails [7] และ Spai 3.2 [21] เป็นสองความนิยมมากที่สุดการใช้งานโอเพนซอร์สของเบาบาง preconditioner ผกผันโดยประมาณในรูปแบบเดียวและมัลติแพลตฟอร์มและมีการใช้สำหรับการเปรียบเทียบในส่วนของการทำงานก่อนหน้านี้ [4] [6 ], [8] [10] ในขณะที่ ParaSails ใช้ประมาณเบื้องต้นของ M เพื่อสร้าง preconditioner ทั้งการปรับตัวและแบบคงที่ preconditioners SAI จะดำเนินการใน Spai 3.2 คล้ายกับ Spai 3.2 ปัญหา preconditioned ใน GSAI จะแก้ไขได้โดยใช้ BiCGStab แก้ซ้ำ (ParaSails ดำเนิน GMRES และบรรษัทภิบาลแก้ซ้ำ) Chow [6] เปรียบเทียบประสิทธิภาพการทำงานของ ParaSails เพื่อ Spai 3.2 และแสดงให้เห็น ParaSails สร้าง preconditioner ไทร consider- ความสามารถเร็วกว่า Spai 3.2 เราเปรียบเทียบเวลาในการสร้าง tioner GSAI precondi- บน GPUs เพื่อ ParaSails บนแพลตฟอร์มเดียวและมัลติ.
แม้ว่า parallelizing สภาพเบาบางผกผันตัวอย่างก่อนมากกว่าหนึ่งหน่วยประมวลผลได้รับการหัวเรื่องศึกษา sively ในการทำงานก่อนหน้านี้ซึ่งประสบความสำเร็จเพื่อเพิ่มความเร็วในการทำงานของ preconditioners ดังกล่าวมากน้อยงานมีการศึกษาความเป็นไปได้ของการเร่ง preconditioners เหล่านี้ในหลาย / สถาปัตยกรรมหลักจำนวนมาก Gravvanis et al, [14] [15] ความพยายามที่จะเร่ง SAI preconditioned BiCGStab แก้ซ้ำกับสถาปัตยกรรมแบบมัลติคอร์ของอินเทลโดยการจัดสรรคำนวณย้ำแก้ซ้ำไปด้ายที่แตกต่างกันในแต่ละ; รายละเอียดการปฏิบัติเกี่ยวกับวิธีการเร่งการคำนวณ preconditioner บนมัลติคอร์จะไม่ถูกนำเสนอในงานนี้ Xu et al, [16] เร่ง SAI factorized บน NVIDIA GPUs กระดาษส่วนใหญ่อธิบายวิธีการเร่งเบาบางเมทริกซ์เวกเตอร์คูณเคอร์เนล (SpMV) ในการแก้ซ้ำ แต่รายละเอียดสำหรับการคำนวณ preconditioner SAI ยังไม่ได้รับ
การนำเสนอ (ความเร่งอื่น ๆ ของเคอร์เนล SpMV ถูกนำเสนอใน [37] และ [38] และ CUSPARSE [41])

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ใน [ 25 ] และ [ 36 ] ถ้า sparsification มีประสิทธิภาพเป็นที่รู้จักกันสำหรับปัญหาที่เฉพาะเจาะจงสามารถเพิ่มระยะก่อน gsai ( ดูรูปที่ 2 ) ใน gsai วิธีการเสนอส่วนใหญ่ทำงานบนทราย preconditioners นำเสนอเทคนิค parallelize การคำนวณของ precondi - tioner บนมัลติโปรเซสเซอร์สถาปัตยกรรม [ 5 ] [ 6 ] [ 7 ] , [ 8 ] , [ 9 ] , [ 10 ] [ 11 ] [ 12 ] [ 13 ] , โดยการกระจายการคำนวณของคอลัมน์ ใน M ระหว่างตัวประมวลผลหลายตัว เทคนิค เช่น กลุ่มสื่อสาร [ 11 ] , [ 8 ] พจนานุกรมตามวิธีการและเงื่อนไขแอบแฝงใจกว้างผสมทราย - ing [ 10 ] ได้มีการนำเสนอในงาน เพื่อเพิ่มประสิทธิภาพการเวลาของไทร preconditioners บนมัลติโปรเซสเซอร์ . parasails [ 7 ] และ spai 3.2 [ 21 ] เป็นสองความนิยมมากที่สุดระบบเปิดแหล่งที่มาของเบาบางโดยประมาณผกผัน preconditioner เดี่ยวและมัลติแพล็ตฟอร์มสำหรับการเปรียบเทียบ - และใช้ในส่วนใหญ่ของการทำงานก่อนหน้านี้ [ 4 ] , [ 6 ] , [ 8 ] , [ 10 ] ในขณะที่ parasails ใช้ priori ประมาณ M เพื่อสร้าง preconditioner ทั้งแบบ Static และไทร preconditioners จะดําเนินการใน spai 3.2 . คล้ายกับ spai 3.2 ปัญหา preconditioned ใน gsai จะแก้ไขโดยใช้ bicgstab ซ้ำแก้ ( parasails ใช้ gmres CG และตัวแก้ ) เฉา [ 6 ] เปรียบเทียบประสิทธิภาพของ parasails เพื่อ spai 3.2 และแสดง parasails สร้างไทร preconditioner พิจารณาไหวเร็วกว่า spai 3.2 . เราเปรียบเทียบ gsai precondi - tioner รุ่นเวลาสุด parasails บนแพลตฟอร์มเดียวและมัลติ .แม้ว่า parallelizing เบาบางโดยประมาณผกผัน pre - ปรับอากาศในการประมวลผลมากกว่าหนึ่งได้รับ EXTEN - sively เรียนก่อนทำงานที่ประสบความสำเร็จ เพื่อเพิ่มความเร็วของการ preconditioners มาก ทำงานน้อยได้ศึกษาความเป็นไปได้ของการเร่ง preconditioners เหล่านี้ในหลายหลาย / หลักสถาปัตยกรรม . gravvanis et al . [ 14 ] , [ 15 ] พยายามเร่งความเร็วของไทร preconditioned bicgstab ซ้ำแก้บนสถาปัตยกรรมมัลติคอร์ Intel โดยการทำซ้ำของการคำนวณแต่ละแก้ซ้ำไปที่หัวข้อที่แตกต่างกัน การใช้รายละเอียดในการเร่ง preconditioner การคำนวณใน multicore ไม่ได้แสดงในงานนี้ Xu et al . [ 16 ] เร่งปัจจัยไทรบน NVIDIA GPUs . กระดาษที่ส่วนใหญ่อธิบายวิธีการเร่งหร็อมแหร็มเมทริกซ์การคูณเวกเตอร์เมล็ด ( spmv ) แก้ซ้ำแต่รายละเอียดการคำนวณไทร preconditioner ไม่ได้นำเสนอ ( ความเร่งอื่น ๆของ spmv เคอร์เนลจะถูกนำเสนอใน [ 37 ] , และ [ 38 ] และ cusparse [ 41 ] )

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.