7. CONCLUSIONGPUs are throughput-or

7. CONCLUSION
GPUs are throughput-oriented processors that depend on mas- sive multithreading to tolerate long latency memory accesses. The latest GPUs all are equipped with on-chip data caches to reduce the latency of memory accesses and save the bandwidth of NOC and off-chip memory modules. But these tiny data caches are vul- nerable to thrashing from massive multithreading, especially when divergent load instructions generate long bursts of cache accesses. Meanwhile, the blocks of divergent loads exhibit high intra-warp locality and are expected to be atomically cached so that the issuing warp can fully hit in L1D in the next load issuance. However, GPU caches are not designed with enough awareness of either SIMD ex- ecution model or memory divergence.
In this work, we renovate the cache management policies to de- sign a GPU-specific data cache, DaCache. This design starts with the observation that warp scheduling can essentially shape the lo- cality pattern in cache access streams. Thus we incorporate the warp scheduling logic into insertion policy so that blocks are in- serted into the LRU-chain according to their issuing warp’s schedul- ing priority. Then we deliberately prioritize coherent loads over di- vergent loads. In order to enable the thrashing resistance, the cache ways are partitioned by desired warp concurrency into two regions, the locality region and the thrashing region, so that replacement is constrained within the thrashing region. When no replacement can- didate is available in the thrashing region, incoming requests are bypassed. We also implement a dynamic partition scheme based on the caching effectiveness that is sampled at runtime. Experiments show that DaCache achieves 40.4% performance improve- ment over the baseline GPU and outperform two state-of-the-art thrashing resistant cache management techniques RRIP and DIP by 40% and 24.9%, respectively.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

7. บทสรุปเน้นอัตราความเร็วตัวประมวลผลที่พึ่งมาส sive มัลติเธรดทนนานแฝงจำหา GPUs ได้ GPUs ล่าสุดทั้งหมดจะเพียบพร้อมไป ด้วยข้อมูลในชิแคชเพื่อลดเวลาแฝงของหาหน่วยความจำ และประหยัดแบนด์วิธของ NOC และโมดูลของหน่วยความจำออกจากชิพ แต่ชดังข้อมูลเล็ก ๆ มี vul-nerable เพื่อ thrashing จากใหญ่มัลติเธรด โดยเฉพาะอย่างยิ่งเมื่อคำแนะนำการโหลดขันติธรรมสร้างระเบิดยาวของแคหา ในขณะเดียวกัน บล็อกของขันติธรรมโหลดแสดงท้องถิ่นภายในแปรปรวนสูง และคาดว่า atomically จะซ่อนให้ครบสามารถตีใน L1D แปรปรวนออกในการออกโหลดต่อไป อย่างไรก็ตาม GPU แคชถูกออกแบบมาไม่ มีจิตสำนึกพอรุ่น ex ecution SIMD หรือหน่วยความจำ divergenceในงานนี้ เราเงินก้อนนโยบายจัดการแคเดเครื่องหมายเฉพาะ GPU ข้อมูลแคช DaCache ออกแบบนี้เริ่มต้น ด้วยการสังเกตว่า แปรปรวนแผนสามารถเป็นรูปร่างรูปหล่อ cality ในแคเข้ากระแส ดังนั้น เรารวมตรรกะจัดแปรปรวนเข้าแทรกนโยบายเพื่อให้บล็อก ใน serted เป็น LRU-โซ่ตามระดับความสำคัญของกำหนดการกำลังแปรปรวนของพวกเขาออก แล้ว เราตั้งใจสำคัญ coherent โหลดผ่านโหลดดิ vergent เพื่อเปิดใช้งานความต้านทาน thrashing วิธีแคจะแบ่งพาร์ติชัน โดยต้องแปรปรวนเกิดในสองภูมิภาค ภูมิภาคท้องถิ่น และ ภูมิภาค thrashing นั้นแทนที่จะจำกัดภายในภูมิภาค thrashing เมื่อ didate สามารถของไม่เปลี่ยนในภูมิภาค thrashing มีข้ามคำขอขาเข้า นอกจากนี้เรายังนำโครงร่างรูปแบบพาร์ติชันแบบไดนามิกตามประสิทธิภาพแคที่ความที่รันไทม์ การทดลองแสดงว่า DaCache ได้รับ 40.4% ประสิทธิภาพปรับปรุงติดขัดกว่าพื้นฐาน GPU และ outperform สองสมัยของแค thrashing ทนบริหารเทคนิค RRIP และแช่น้ำ 40% และ 24.9% ตามลำดับ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

7. สรุป
GPU เป็นตัวประมวลผลที่มุ่งเน้นการส่งผ่านข้อมูลที่ขึ้นอยู่กับ multithreading sive mas- หน่วยความจำที่จะทนต่อความล่าช้านานเข้าถึง GPUs ล่าสุดทั้งหมดมีการติดตั้งแคชข้อมูลบนชิปที่จะลดความล่าช้าของการเข้าถึงหน่วยความจำและบันทึกแบนด์วิดธ์ของ NOC และโมดูลหน่วยความจำออกชิป แต่แคชข้อมูลเล็ก ๆ เหล่านี้มีความไม่มั่นคงในการ nerable หวดจาก multithreading ขนาดใหญ่โดยเฉพาะอย่างยิ่งเมื่อมีคำแนะนำในการโหลดที่แตกต่างสร้างระเบิดที่ยาวนานของการเข้าถึงแคช ในขณะที่กลุ่มของโหลดที่แตกต่างกันแสดงท้องที่ภายในวิปริตสูงและคาดว่าจะถูกเก็บไว้อะตอมเพื่อให้วิปริตออกสามารถตีอย่างเต็มที่ใน L1D ในการออกโหลดต่อไป อย่างไรก็ตามแคช GPU ไม่ได้ถูกออกแบบด้วยความตระหนักเพียงพอของทั้ง SIMD อดีต ecution รูปแบบหรือความแตกต่างของหน่วยความจำ.
ในงานนี้เราปรับปรุงนโยบายการจัดการแคชเพื่อลงนามในพืชเกษตรในแคชข้อมูล GPU เฉพาะ DaCache การออกแบบนี้จะเริ่มต้นด้วยการสังเกตว่าการจัดตารางวาร์ปเป็นหลักสามารถสร้างรูปร่างรูปแบบ cality lo- ในการเข้าถึงแคชลำธาร ดังนั้นเราจึงรวมการตั้งเวลาวิปริตตรรกะแทรกลงไปในนโยบายเพื่อให้บล็อกจะได้ใส่ลงไปในห่วงโซ่อาร์ตามลำดับความสำคัญ schedul- ไอเอ็นจีวิปริตออกของพวกเขา จากนั้นเราก็จงใจจัดลำดับความสำคัญโหลดกันมากกว่าโหลดดิ vergent เพื่อที่จะช่วยต้านทานการนวดที่วิธีการแคชที่มีการแบ่งพาร์ติชันโดยเห็นพ้องด้วยวิปริตที่ต้องการเป็นสองภูมิภาคภูมิภาคท้องถิ่นและภูมิภาคนวดเพื่อให้เปลี่ยนเป็นข้อ จำกัด ในภูมิภาคหวด เมื่อไม่มีการเปลี่ยน can- didate มีอยู่ในภูมิภาคหวดที่ร้องขอเข้ามาจะข้าม นอกจากนี้เรายังใช้รูปแบบพาร์ติชันแบบไดนามิกตามประสิทธิภาพการแคชที่เป็นตัวอย่างที่รันไทม์ การทดลองแสดงให้เห็นว่า DaCache ประสบความสำเร็จในการปฏิบัติงาน 40.4% ปรับปรุง ment มากกว่า GPU พื้นฐานและมีประสิทธิภาพสูงกว่าสองรัฐของศิลปะการนวดทนเทคนิคการจัดการแคช RRIP และกรมทรัพย์สินทางปัญญาได้ถึง 40% และ 24.9% ตามลำดับ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

7 . สรุป
GPUs สามารถมุ่งเน้น โปรเซสเซอร์ที่ขึ้นอยู่กับ Mas - sive multithreading ทนต่อหน่วยความจำแฝงนานที . ล่าสุด GPUs ทั้งหมดมีการติดตั้งบนแคชข้อมูลเพื่อลดความล่าช้าของการเข้าถึงหน่วยความจำและบันทึกแบนด์วิธของน็อกและปิดโมดูลชิปหน่วยความจำ . แต่เหล่านี้เล็กข้อมูลแคชจะอยู่ - nerable ที่จะโบยจากยวงใหญ่ ,โดยเฉพาะอย่างยิ่งเมื่อใช้ทักษะสร้างระเบิดของแคชโหลดนานที . ขณะที่บล็อกของอเนกจัดแสดงภายในท้องถิ่นโหลดบิดสูง และคาดว่าจะ atomically เก็บไว้แล้วออกวาป สามารถกดปุ่มใน l1d ในการออกโหลดต่อไป แต่แคชไม่ได้ออกแบบ GPU ด้วยความรู้เพียงพอของ simd EX - ecution รุ่นหรือความแตกต่าง
หน่วยความจำในงานนี้เราปรับปรุงแคชการจัดการนโยบายเพื่อ de - เซ็น GPU โดยเฉพาะข้อมูลแคช , dacache . การออกแบบนี้จะเริ่มต้นด้วยการสังเกตที่วิปริตตารางสามารถเป็นหลักรูปร่างโล - cality แบบแผนในแคชเข้าถึงกระแสข้อมูลเราจึงรวมวิปริตตารางตรรกะในนโยบายแทรกเพื่อให้บล็อกใน serted เข้าเลยโซ่ตามออกวาป ก็ schedul - ing อันดับแรก เราก็ตั้งใจจัดลําดับความสําคัญโหลดติดต่อกันกว่าตี้ vergent โหลด เพื่อช่วยเจ้าของความต้านทานแคชถูกแบ่งโดยวิธีที่ต้องการการบิดเป็นสองภูมิภาคท้องถิ่นภูมิภาคและเจ้าของเขต เพื่อให้เปลี่ยนเป็น จำกัด ภายใน เจ้าของพื้นที่ เมื่อไม่มีอะไหล่ - didate สามารถใช้ได้ในเขตโบย , การร้องขอเข้ามาผ่าน . เรายังใช้แบบไดนามิกรูปแบบพาร์ทิชันตามแคชประสิทธิภาพนั่นคือตัวอย่างที่รันไทม์ การทดลองแสดงให้เห็นว่า dacache บรรลุ 404 ปรับปรุงประสิทธิภาพ ment ผ่าน GPU และแสดงพื้นฐานสองรัฐ - of - the - art นวดป้องกันการจัดการแคชเทคนิคเข็มขัด และลง 40% และ 24.9 เปอร์เซ็นต์ ตามลำดับ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.