7. CONCLUSIONGPUs are throughput-or

7. CONCLUSION
GPUs are throughput-oriented processors that depend on mas- sive multithreading to tolerate long latency memory accesses. The latest GPUs all are equipped with on-chip data caches to reduce the latency of memory accesses and save the bandwidth of NOC and off-chip memory modules. But these tiny data caches are vulnerable to thrashing from massive multithreading, especially when divergent load instructions generate long bursts of cache accesses. Meanwhile, the blocks of divergent loads exhibit high intra-warp locality and are expected to be atomically cached so that the issuing warp can fully hit in L1D in the next load issuance. However, GPU caches are not designed with enough awareness of either SIMD ex- ecution model or memory divergence.
In this work, we renovate the cache management policies to design a GPU-specific data cache, DaCache. This design starts with the observation that warp scheduling can essentially shape the locality pattern in cache access streams. Thus we incorporate the warp scheduling logic into insertion policy so that blocks are inserted into the LRU-chain according to their issuing warp’s scheduling priority. Then we deliberately prioritize coherent loads over divergent loads. In order to enable the thrashing resistance, the cache ways are partitioned by desired warp concurrency into two regions, the locality region and the thrashing region, so that replacement is constrained within the thrashing region. When no replacement candidate is available in the thrashing region, incoming requests are bypassed. We also implement a dynamic partition scheme based on the caching effectiveness that is sampled at runtime. Experiments show that DaCache achieves 40.4% performance improve- ment over the baseline GPU and outperform two state-of-the-art thrashing resistant cache management techniques RRIP and DIP by 40% and 24.9%, respectively.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

7. บทสรุปเน้นอัตราความเร็วตัวประมวลผลที่พึ่งมาส sive มัลติเธรดทนนานแฝงจำหา GPUs ได้ GPUs ล่าสุดทั้งหมดจะเพียบพร้อมไป ด้วยข้อมูลในชิแคชเพื่อลดเวลาแฝงของหาหน่วยความจำ และประหยัดแบนด์วิธของ NOC และโมดูลของหน่วยความจำออกจากชิพ แต่แคชข้อมูลเล็ก ๆ เหล่านี้จะเสี่ยง thrashing จากใหญ่มัลติเธรด โดยเฉพาะอย่างยิ่งเมื่อคำแนะนำการโหลดขันติธรรมสร้างระเบิดยาวของแคหา ในขณะเดียวกัน บล็อกของขันติธรรมโหลดแสดงท้องถิ่นภายในแปรปรวนสูง และคาดว่า atomically จะซ่อนให้ครบสามารถตีใน L1D แปรปรวนออกในการออกโหลดต่อไป อย่างไรก็ตาม GPU แคชถูกออกแบบมาไม่ มีจิตสำนึกพอรุ่น ex ecution SIMD หรือหน่วยความจำ divergenceในงานนี้ เราเงินก้อนนโยบายจัดการแคออก GPU เฉพาะข้อมูลแค DaCache ออกแบบนี้เริ่มต้น ด้วยการสังเกตว่า แปรปรวนแผนสามารถเป็นรูปร่างรูปแบบท้องถิ่นในแคเข้ากระแส ดังนั้น เรารวมแปรปรวนแผนตรรกะเข้าแทรกนโยบายเพื่อให้บล็อกมีแทรก LRU-โซ่ตามแปรปรวนการออกเอกสารสำคัญการจัดกำหนดการ แล้ว เราตั้งใจสำคัญ coherent โหลดผ่านโหลดขันติธรรม เพื่อเปิดใช้งานความต้านทาน thrashing วิธีแคจะแบ่งพาร์ติชัน โดยต้องแปรปรวนเกิดในสองภูมิภาค ภูมิภาคท้องถิ่น และ ภูมิภาค thrashing นั้นแทนที่จะจำกัดภายในภูมิภาค thrashing เมื่อไม่มีผู้แทนในภูมิภาค thrashing มีข้ามคำขอขาเข้า นอกจากนี้เรายังนำโครงร่างรูปแบบพาร์ติชันแบบไดนามิกตามประสิทธิภาพแคที่ความที่รันไทม์ การทดลองแสดงว่า DaCache ได้รับ 40.4% ประสิทธิภาพปรับปรุงติดขัดกว่าพื้นฐาน GPU และ outperform สองสมัยของแค thrashing ทนบริหารเทคนิค RRIP และแช่น้ำ 40% และ 24.9% ตามลำดับ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

7. สรุป
GPU เป็นตัวประมวลผลที่มุ่งเน้นการส่งผ่านข้อมูลที่ขึ้นอยู่กับ multithreading sive mas- หน่วยความจำที่จะทนต่อความล่าช้านานเข้าถึง GPUs ล่าสุดทั้งหมดมีการติดตั้งแคชข้อมูลบนชิปที่จะลดความล่าช้าของการเข้าถึงหน่วยความจำและบันทึกแบนด์วิดธ์ของ NOC และโมดูลหน่วยความจำออกชิป แต่แคชข้อมูลเล็ก ๆ เหล่านี้มีความเสี่ยงที่จะหวดจาก multithreading ขนาดใหญ่โดยเฉพาะอย่างยิ่งเมื่อมีคำแนะนำในการโหลดที่แตกต่างสร้างระเบิดที่ยาวนานของการเข้าถึงแคช ในขณะที่กลุ่มของโหลดที่แตกต่างกันแสดงท้องที่ภายในวิปริตสูงและคาดว่าจะถูกเก็บไว้อะตอมเพื่อให้วิปริตออกสามารถตีอย่างเต็มที่ใน L1D ในการออกโหลดต่อไป อย่างไรก็ตามแคช GPU ไม่ได้ถูกออกแบบด้วยความตระหนักเพียงพอของทั้ง SIMD อดีต ecution รูปแบบหรือความแตกต่างของหน่วยความจำ.
ในงานนี้เราปรับปรุงนโยบายการจัดการแคชในการออกแบบแคชข้อมูล GPU เฉพาะ DaCache การออกแบบนี้จะเริ่มต้นด้วยการสังเกตว่าการจัดตารางวาร์ปเป็นหลักสามารถสร้างรูปร่างรูปแบบท้องถิ่นในการเข้าถึงกระแสแคช ดังนั้นเราจึงรวมการตั้งเวลาวิปริตตรรกะแทรกลงไปในนโยบายเพื่อให้บล็อกจะถูกแทรกเข้าไปในห่วงโซ่อาร์ตามลำดับความสำคัญการตั้งเวลาวิปริตออกของพวกเขา จากนั้นเราก็จงใจจัดลำดับความสำคัญโหลดกันมากกว่าโหลดที่แตกต่างกัน เพื่อที่จะช่วยต้านทานการนวดที่วิธีการแคชที่มีการแบ่งพาร์ติชันโดยเห็นพ้องด้วยวิปริตที่ต้องการเป็นสองภูมิภาคภูมิภาคท้องถิ่นและภูมิภาคนวดเพื่อให้เปลี่ยนเป็นข้อ จำกัด ในภูมิภาคหวด เมื่อผู้สมัครทดแทนไม่สามารถใช้ได้ในภูมิภาคหวดที่ร้องขอเข้ามาจะข้าม นอกจากนี้เรายังใช้รูปแบบพาร์ติชันแบบไดนามิกตามประสิทธิภาพการแคชที่เป็นตัวอย่างที่รันไทม์ การทดลองแสดงให้เห็นว่า DaCache ประสบความสำเร็จในการปฏิบัติงาน 40.4% ปรับปรุง ment มากกว่า GPU พื้นฐานและมีประสิทธิภาพสูงกว่าสองรัฐของศิลปะการนวดทนเทคนิคการจัดการแคช RRIP และกรมทรัพย์สินทางปัญญาได้ถึง 40% และ 24.9% ตามลำดับ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

7 . สรุป
GPUs สามารถมุ่งเน้น โปรเซสเซอร์ที่ขึ้นอยู่กับ Mas - sive multithreading ทนต่อหน่วยความจำแฝงนานที . ล่าสุด GPUs ทั้งหมดมีการติดตั้งบนแคชข้อมูลเพื่อลดความล่าช้าของการเข้าถึงหน่วยความจำและบันทึกแบนด์วิธของน็อกและปิดโมดูลชิปหน่วยความจำ . แต่เหล่านี้เล็กข้อมูลแคชถูกโบยจากยวงใหญ่ ,โดยเฉพาะอย่างยิ่งเมื่อใช้ทักษะสร้างระเบิดของแคชโหลดนานที . ขณะที่บล็อกของอเนกจัดแสดงภายในท้องถิ่นโหลดบิดสูง และคาดว่าจะ atomically เก็บไว้แล้วออกวาป สามารถกดปุ่มใน l1d ในการออกโหลดต่อไป แต่แคชไม่ได้ออกแบบ GPU ด้วยความรู้เพียงพอของ simd EX - ecution รุ่นหรือความแตกต่าง
หน่วยความจำในงานนี้เราปรับปรุงแคชของนโยบายการจัดการการออกแบบ GPU โดยเฉพาะข้อมูลแคช , dacache . การออกแบบนี้จะเริ่มต้นด้วยการสังเกตที่วิปริตตารางสามารถเป็นหลักรูปร่างส่วนรูปแบบในแคชเข้าถึงกระแสข้อมูลเราจึงรวมวิปริตตารางตรรกะในนโยบายแทรกเพื่อแทรกลงในบล็อกเลยโซ่ตามออกวาปก็จัดลําดับความสําคัญ เราก็ตั้งใจจัดลําดับความสําคัญโหลดติดต่อกันกว่าโหลดเถื่อน . เพื่อช่วยเจ้าของความต้านทานแคชถูกแบ่งโดยวิธีที่ต้องการการบิดเป็นสองภูมิภาคท้องถิ่นภูมิภาคและเจ้าของเขต เพื่อให้เปลี่ยนเป็น จำกัด ภายใน เจ้าของพื้นที่ เมื่อไม่มีการแทนที่ผู้สมัครมีอยู่ในภูมิภาคโบย , การร้องขอเข้ามาผ่าน . เรายังใช้แบบไดนามิกรูปแบบพาร์ทิชันตามแคชประสิทธิภาพนั่นคือตัวอย่างที่รันไทม์ การทดลองแสดงให้เห็นว่า dacache บรรลุ 404 ปรับปรุงประสิทธิภาพ ment ผ่าน GPU และแสดงพื้นฐานสองรัฐ - of - the - art นวดป้องกันการจัดการแคชเทคนิคเข็มขัด และลง 40% และ 24.9 เปอร์เซ็นต์ ตามลำดับ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.