1. D. Arnold et al., ‘‘Stack Trace Analysis for Large Scale Debugging,‘‘ Proc. IEEE Int’l Parallel and Distributed Processing Symp. (IPDPS 07), IEEE CS, 2007; doi:10.1109/ IPDPS.2007.370254.
2. M. Herlihy and J.E.B. Moss, ‘‘Transactional Memory: Architectural Support for LockFree Data Structures,‘‘ Proc. 20th Ann. Int’l Symp. Computer Architecture (ISCA 93), ACM, 1993, pp. 289-300.
3. T. Harris, J. Larus, and R. Rajwar, Transactional Memory, 2nd ed., Morgan and Claypool, 2010. 4. M. Burtscher and K. Pingali, ‘‘An Efficient CUDA Implementation of the Tree-Based Barnes Hut n-Body Algorithm,‘‘ GPU
Computing Gems, Emerald ed., Morgan Kaufmann, 2011, pp. 75-92.
5. ‘‘NVIDIA’s Next-Gen CUDA Compute Architecture: Fermi,‘‘ white paper, Nvidia, Oct. 2009; http://www.nvidia.com/content/PDF/ fermi_white_papers/NVIDIA_Fermi_Compute_ Architecture_Whitepaper.pdf.
6. W.W.L. Fung et al., ‘‘Dynamic Warp Formation and Scheduling for Efficient GPU Control Flow,‘‘ Proc. 40th Ann. IEEE/ACM Int’l Symp. Microarchitecture, IEEE CS, 2007, pp. 407-420.
7. W.W.L. Fung et al., ‘‘Hardware Transactional Memory for GPU Architectures,‘‘ Proc. 44th Ann. IEEE/ACM Int’l Symp. Microarchitecture, ACM, 2011, pp. 296-307.
8. H. Chafi et al., ‘‘A Scalable, Non-blocking Approach to Transactional Memory,‘‘ Proc. IEEE 13th Int’l Symp. High Performance Computer Architecture (HPCA 07), IEEE CS, 2007, pp. 97-108.
9. L. Yen et al., ‘‘LogTM-SE: Decoupling Hardware Transactional Memory from Caches,‘‘ Proc. IEEE 13th Int’l Symp. High Performance Computer Architecture (HPCA 07), IEEE CS, 2007, pp. 261-272. 10. R. Guerraoui and M. Kapalka, ‘‘On the Correctness of Transactional Memory,‘‘ Proc. 13th ACM SIGPLAN Symp. Principles and Practice of Parallel Programming (PPoPP 08), ACM, 2008, pp. 175-184.
11. M.F. Spear, M.M. Michael, and C. von Praun, ‘‘RingSTM: Scalable Transactions with a Single Atomic Instruction,‘‘ Proc. 20th Ann. Symp. Parallelism in Algorithms and Architectures (SPAA 08), ACM, 2008, pp. 275-284.
12. L. Dalessandro, M.F. Spear, and M.L. Scott, ‘‘NOrec: Streamlining STM by Abolishing Ownership Records,‘‘ Proc. 15th ACM SIGPLAN Symp. Principles and Practice of Parallel Programming (PPoPP 10), ACM, 2010, pp. 67-78.
13. M.M. Michael, ‘‘Practical Lock-Free and Wait-Free LL/SC/VL Implementations Using 64-Bit CAS,‘‘ Proc. 18th Int’l Symp. Distributed Computing (DISC 04), LNCS 3274, Springer, 2004, pp. 144-158.
14. A. Bakhoda et al., ‘‘Analyzing CUDA Workloads Using a Detailed GPU Simulator,‘‘ Proc. IEEE Int’l Symp. Performance Analysis of Systems and Software (ISPASS 09), IEEE, 2009, pp. 163-174.
15. W.J. Dally and B.P. Towles, Principles and Practices of Interconnection Networks, Morgan Kaufmann, 2004.
1. D. อาร์โนลด์ et al., ''กองวิเคราะห์การสืบค้นกลับการตรวจแก้จุดบกพร่องขนาดใหญ่ Proc. IEEE นานาขนานและแบบกระจายการประมวลผล Symp CS (IPDPS 07), IEEE, 2007 doi:10.1109 / IPDPS.2007.370254 2. M. Herlihy และ J.E.B. Moss, '' หน่วยความจำของทรานแซคชัน: สนับสนุนสถาปัตยกรรมสำหรับโครงสร้างข้อมูล LockFree,'' Proc. Int'l Symp Ann. 20 คอมพิวเตอร์สถาปัตยกรรม (ISCA 93), ACM, 1993, pp. 289-300 3. ต.แฮร์ริส J. Larus และ R. Rajwar หน่วยความจำของทรานแซคชัน 2 ed. มอร์แกนและ Claypool, 2010 4. M. Burtscher และเค Pingali, '' CUDA ประสิทธิภาพใช้อัลกอริธึมวัตถุฮัทต้นไม้ตามบาร์นส์ GPUคอมพิวเตอร์อัญมณี ed.มรกต Morgan Kaufmann, 2011 ภภ. 75-92 5. '' สถาปัตยกรรมคำนวณ CUDA ถัดไป Gen ของ NVIDIA: แฟร์มี กระดาษสีขาว Nvidia, 2009 ตุลาคม fermi_white_papers http://www.nvidia.com/content/PDF//NVIDIA_Fermi_Compute_ Architecture_Whitepaper.pdf 6. W.W.L. Fung et al., '' Warp ไดนามิกก่อตัวและการจัดกำหนดการสำหรับ GPU มีประสิทธิภาพควบคุมกระแส Proc. 40 Ann. IEEE/ACM Int'l Symp สถาปัตยกรรมไมโคร IEEE CS, 2007, pp. 407-420 7. W.W.L. Fung et al., ''ฮาร์ดแวร์หน่วยความจำของทรานแซคชันสำหรับสถาปัตยกรรม GPU,'' Proc. 44 Ann. IEEE/ACM Int'l Symp สถาปัตยกรรมไมโคร ACM, 2011 ภภ. 296-307 8. H. Chafi et al., ''ขนาด บล็อกที่ไม่ใช่วิธีการหน่วยความจำของทรานแซคชัน Proc. IEEE Int'l Symp 13 ประสิทธิภาพสูงสถาปัตยกรรมคอมพิวเตอร์ (HPCA 07), IEEE CS, 2007, pp. 97-108 9. L. เยน et al., '' LogTM SE: Decoupling ฮาร์ดแวร์หน่วยความจำของทรานแซคชันจากแคช Proc. IEEE Int'l Symp 13 ประสิทธิภาพสูงสถาปัตยกรรมคอมพิวเตอร์ (HPCA 07), IEEE CS, 2007, pp. 261-272 10. R. Guerraoui และ M. Kapalka, ''บนความถูกต้องของหน่วยความจำของทรานแซคชัน Proc. Symp ACM SIGPLAN 13 หลักการและปฏิบัติการแบบขนานเขียนโปรแกรม (PPoPP 08), ACM, 2008, pp. 175-184 11. M.F. หอก ไมเคิลม.ม. และ C. von Praun '' RingSTM:ขนาดธุรกรรมด้วยการเดี่ยวอะตอม สอน Proc. 20 Ann. Symp ทำงานแบบขนานในอัลกอริทึมและสถาปัตยกรรม (SPAA 08), ACM, 2008, pp. 275-284 12. L. Dalessandro, M.F. หอก และม.ล. สก็อต, '' NOrec: เพรียวลม STM โดยให้เลิกเป็นเจ้าของระเบียน Proc. Symp ACM SIGPLAN 15 หลักการและปฏิบัติการแบบขนานเขียนโปรแกรม (PPoPP 10), ACM, 2010, pp. 67-78 13. ม.ม.ไมเคิล, ''ปฏิบัติ ฟรีล็อค และ ฟรีรอ LL/SC/VL ใช้งานใช้ 64 บิต CAS,'' Proc. Int'l Symp 18 กระจาย LNCS (ดิสก์ 04), คอมพิวเตอร์ 3274 สปริง 2004, pp. 144-158 14. A. Bakhoda et al., ''วิเคราะห์ CUDA ปริมาณโดยใช้แบบจำลองรายละเอียด GPU,'' Proc. IEEE Int'l Symp วิเคราะห์ประสิทธิภาพของระบบและซอฟต์แวร์ (ISPASS 09), IEEE, 2009 ภภ. 163-17415. ฆ่าเวลา W.J. Towles ธาริน และหลักปฏิบัติหลักปฏิบัติของการเชื่อมต่อเครือข่าย Morgan Kaufmann, 2004
การแปล กรุณารอสักครู่..

1. ดีอาร์โนล et al., '' กองวิเคราะห์ติดตามสำหรับการแก้จุดบกพร่องขนาดใหญ่ '' พร IEEE ขนาน Int'l และ Distributed Processing Symp (IPDPS 07), IEEE CS 2007; ดอย: 10.1109 / IPDPS.2007.370254.
2 เอ็มเฮอร์ลิฮีและ JEB มอส '' การทำธุรกรรมหน่วยความจำ: สนับสนุนสถาปัตยกรรมสำหรับโครงสร้าง LockFree ข้อมูล '' พร 20 แอน Int'l Symp สถาปัตยกรรมคอมพิวเตอร์ (Isca 93) ACM 1993, PP. 289-300.
3 ตแฮร์ริส, เจลารุสและอาร์ Rajwar ธุรกรรมหน่วยความจำ 2 เอ็ด. มอร์แกนและ Claypool 2010 4. เอ็ม Burtscher และเค Pingali '' การดำเนินงานที่มีประสิทธิภาพของ CUDA ต้นไม้ตามบาร์นส์ฮัท n ขั้นตอนวิธีการชั่ง '' GPU
Computing อัญมณีมรกต ed. มอร์แกน Kaufmann 2011, PP. 75-92.
5 '' ของ NVIDIA ถัดไป gen CUDA Compute สถาปัตยกรรม: แฟร์ '' กระดาษสีขาว, Nvidia, ตุลาคม 2009; http://www.nvidia.com/content/PDF/ fermi_white_papers / NVIDIA_Fermi_Compute_ Architecture_Whitepaper.pdf.
6 ดับเบิ้ลยูดับเบิ้ลยู Fung et al., '' แบบไดนามิก Warp การสร้างและการกำหนดเวลาที่มีประสิทธิภาพสำหรับการควบคุมการไหลของ GPU, '' พร 40th แอน IEEE / ACM Int'l Symp microarchitecture อีอีอีซี 2007, PP. 407-420.
7 ดับเบิ้ลยูดับเบิ้ลยู Fung et al., '' อุปกรณ์หน่วยความจำสำหรับการทำธุรกรรมสถาปัตยกรรม GPU '' พร 44th แอน IEEE / ACM Int'l Symp microarchitecture, ACM 2011, PP. 296-307.
8 เอช Chafi et al., '' สามารถปรับขนาดได้ไม่ปิดกั้นแนวทางการ Transactional หน่วยความจำ '' พร IEEE 13 Int'l Symp ที่มีประสิทธิภาพสูงสถาปัตยกรรมคอมพิวเตอร์ (HPCA 07), IEEE CS 2007, PP. 97-108.
9 ลิตรเยน et al, '' LogTM-SE: Decoupling อุปกรณ์หน่วยความจำในการทำธุรกรรมจากแคช '.' พร IEEE 13 Int'l Symp ที่มีประสิทธิภาพสูงสถาปัตยกรรมคอมพิวเตอร์ (HPCA 07), IEEE CS 2007, PP. 261-272 10. อาร์ Guerraoui เมตรและ Kapalka '' ในความถูกต้องของการทำธุรกรรมหน่วยความจำ '' พร 13 พลอากาศเอก SIGPLAN Symp หลักการและการปฏิบัติของการเขียนโปรแกรมแบบขนาน (PPoPP 08), ACM 2008, PP. 175-184.
11 MF หอก MM ไมเคิลและซีฟอน Praun '' RingSTM: ธุรกรรม Scalable มีคำสั่งเดียวอะตอม '' พร 20 แอน Symp ความเท่าเทียมในอัลกอริทึมและสถาปัตยกรรม (SPAA 08), ACM 2008, PP. 275-284.
12 ลิตร Dalessandro, MF หอกและ ML สกอตต์ '' NOrec: เพรียวลม STM ยกเลิกการเป็นเจ้าของประวัติ '' พร 15 พลอากาศเอก SIGPLAN Symp หลักการและการปฏิบัติของการเขียนโปรแกรมแบบขนาน (PPoPP 10), ACM 2010, PP. 67-78.
13 MM ไมเคิล '' ปฏิบัติ LL ล็อคฟรีและรอฟรี / SC / VL การใช้งานการใช้ 64 บิต CAS '' พร 18 Int'l Symp การคำนวณแบบกระจาย (DISC 04), LNCS 3274 สปริงเกอร์ 2004, PP. 144-158.
14 A. Bakhoda et al., '' วิเคราะห์ CUDA ปริมาณการใช้ GPU จำลองรายละเอียด '' พร IEEE Int'l Symp การวิเคราะห์ประสิทธิภาพการทำงานของระบบและซอฟต์แวร์ (ISPASS 09), IEEE 2009, PP. 163-174.
15 WJ Dally และ BP Towles, หลักการและวิธีปฏิบัติในการเชื่อมต่อโครงข่ายเครือข่าย, มอร์แกน Kaufmann 2004
การแปล กรุณารอสักครู่..

1 . D . Arnold et al . , ' ติดตามการวิเคราะห์ 'stack สำหรับการแก้จุดบกพร่องขนาดใหญ่ , ' ' proc . การประมวลผลแบบขนานและแบบกระจาย ( Int ' l บ้าง . ( ipdps 07 ) , IEEE CS , 2007 ; ดอย : 10.1109/ ipdps.2007.370254 .2 . เมตร และ j.e.b. เฮลีฮีมอส ' หน่วยความจำ 'transactional : สนับสนุนสถาปัตยกรรมเพื่อ lockfree โครงสร้างข้อมูล , ' ' proc . 20 อัน Int ' l บ้าง . สถาปัตยกรรมคอมพิวเตอร์ ( Isca 93 ) , ACM , 1993 , pp . 289-300 .3 . ที แฮร์ริส เจ ลารุส และ อาร์ rajwar , หน่วยความจำ , ทราน 2 เอ็ด มอร์แกน และ เคลพูล 2010 4 . เมตร burtscher และ K . pingali ' 'an มีประสิทธิภาพการใช้ต้นไม้ บาร์นส์ ท n วัตถุขั้นตอนวิธีพื้นฐาน ' ' GPUคอมพิวเตอร์ อัญมณี มรกต เอ็ด มอร์แกน คอฟแมน , 2011 , pp . 75-92 .5 . ' 'nvidia ถัดไป gen การคํานวณทางสถาปัตยกรรม Fermi " กระดาษสีขาว , Nvidia , ตุลาคม 2009 http://www.nvidia.com/content/pdf/ fermi_white_papers / nvidia_fermi_compute_ architecture_whitepaper.pdf .6 . w.w.l. ฟง et al . , ' เกิดวิปริต 'dynamic และตารางสำหรับการควบคุมการไหลที่มีประสิทธิภาพ ' ' proc . 40 อัน IEEE / ACM Int ' l บ้าง . สถาบันสมิธโซเนียน , IEEE CS , 2550 . 407-420 .7 . w.w.l. ฟง et al . , ' 'hardware หน่วยความจำธุรกรรมสำหรับสถาปัตยกรรม GPU , ' ' proc . 44 อัน IEEE / ACM Int ' l บ้าง . สถาบันสมิธโซเนียน , ACM , 2554 . 296-307 .8 . ชั่วโมง chafi et al . , ' ' ยืดหยุ่น ไม่ปิดกั้นแนวทางหน่วยความจำการ ' ' proc . อีอีอี 13 Int ' l บ้าง . สถาปัตยกรรมคอมพิวเตอร์สมรรถนะสูง ( hpca 07 ) , IEEE CS , 2550 . 97-108 .9 . ล. เยน et al . , ' 'logtm-se : decoupling ฮาร์ดแวร์หน่วยความจำจากการแคช ' ' proc . อีอีอี 13 Int ' l บ้าง . สถาปัตยกรรมคอมพิวเตอร์สมรรถนะสูง ( hpca 07 ) , IEEE CS , 2550 . 261-272 . 10 . อาร์ guerraoui และ kapalka ' ในความถูกต้องของหน่วยความจำเป็น ' ' proc . 13 sigplan ACM บ้าง . หลักการและการปฏิบัติของการเขียนโปรแกรมแบบขนาน ( ppopp 08 ) , ACM , 2551 . 175-184 .11 . หอก ) , Ph.D . ไมเคิล ซี วอน praun ' 'ringstm : ธุรกรรมด้านเดียวกับอะตอมสอน ' ' proc . 20 อัน บ้าง . ขนานในขั้นตอนวิธีและสถาปัตยกรรม ( spaa 08 ) , ACM , 2551 . 275-284 .12 . ลิตรดัลเลสซันโดร ) , หอก , และ ม.ล. Scott ' 'norec : เพรียวลม STM โดยยกเลิกประวัติความเป็นเจ้าของ ' ' proc . 15 sigplan ACM บ้าง . หลักการและการปฏิบัติของการเขียนโปรแกรมแบบขนาน ( ppopp 10 ) , ACM , 2553 . 67-78 .13 . Ph.D . ไมเคิล ' 'practical ล็อคฟรีและฟรีจะรอ / SC / VL ซึ่งใช้ CAS 64 บิต ' ' proc . 18 Int ' l บ้าง . การคอมพิวเตอร์แบบกระจาย ( Disc 04 ) , lncs 3274 เกอร์ , 2004 , pp . 144-158 .14 . 1 . bakhoda et al . , ' 'analyzing CUDA GPU สำหรับใช้จำลองรายละเอียด ' ' proc . IEEE Int ' l บ้าง . การวิเคราะห์สมรรถนะของระบบและซอฟต์แวร์ ( ispass 09 ) , IEEE , 2552 . 163-174 .15 . w.j. หยอกเอิน towles และความดัน หลักการและแนวทางปฏิบัติของเครือข่ายที่เชื่อมต่อ มอร์แกน คอฟแมน , 2004
การแปล กรุณารอสักครู่..
