4.2 High performance using smaller

4.2 High performance using smaller GPU memory Figure 3 shows the execution time of benchmarks when we vary the size of the GPU memory. The baseline and zero-copy scheme run programmer-modiﬁed codes for a smaller GPU memory and for bypassed GPU memory, respectively. We evaluate the runtime of ScaleGPU by decreasing the size of the GPU memory from 100% to 12.5% of the data size. We normalize the runtime of smaller GPU memory to that of the baseline with 100% GPU memory. Each runtime is also divided into host-to-device (H2D) transfer latency, device-to-host (D2H) transfer latency, and GPU kernel execution latency. It should be noted that Shortest Path and Bank Account cannot be manually modiﬁed to ﬁt in smaller memory due to the nature of their algorithm. First, ScaleGPU achieves an average of 8% speedup for splitfriendly workloads such as vectorAdd and histogram by overlapping the data transfers and the GPU kernel executions. The zero-copy scheme achieves an average of 58% speedup because these applications do not reuse data and all memory accesses are coalesced. ScaleGPU does not reach the zero-copy scheme’s performance as it accesses the GPU memory before forwarding the request to CPU memory. Next, ScaleGPU achieves an average of 32% speedup for hotspot over the manually modiﬁed codes. Whereas both the manually modiﬁed codes and the zero-copy scheme suffer from signiﬁcant performance losses due to the increased memory transfer, ScaleGPU maintains baseline performance using only 25% of the memory. Such performance improvement comes from frequent data reuse in GPU memory as well as the overlapping of the data transfers and the GPU execution. Finally, Shortest Path and Bank Account fail to run on baseline with smaller GPU memory because these applications cannot be split to ﬁt in a smaller GPU memory. Although the zero-copy scheme successfully runs on smaller GPU memory, it suffers from a

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

4.2 ประสิทธิภาพสูงใช้เล็ก GPU หน่วยความจำรูปที่ 3 แสดงเวลาการดำเนินการของเกณฑ์มาตรฐานเมื่อเราเปลี่ยนแปลงขนาดของหน่วยความจำของ GPU พื้นฐานและศูนย์คัดลอกโครงร่างรันรหัส modiﬁed โปรแกรมเมอร์ขนาดเล็กหน่วยความจำของ GPU และข้าม GPU หน่วยความ จำ ตามลำดับ เราประเมินขณะทำงานของ ScaleGPU โดยการลดขนาดของหน่วยความจำ GPU จาก 100% เป็น 12.5% ของขนาดข้อมูล เราปกติขณะเล็ก GPU หน่วยความจำที่หลักที่มีหน่วยความจำของ GPU 100% ขณะทำงานแต่ละยังได้ถูกแบ่งออกเป็นโฮสต์อุปกรณ์ (H2D) โอนแฝง อุปกรณ์การโฮสต์ (D2H) โอนแฝง และ GPU เคอร์เนลการแฝง ก็ควรจดบันทึกว่า เส้นทางที่สั้นที่สุดและธนาคารไม่สามารถด้วยตนเอง modiﬁed การ ﬁt ในหน่วยความจำขนาดเล็กเนื่องจากธรรมชาติของอัลกอริทึมของพวกเขา ครั้งแรก ScaleGPU ได้รับโดยเฉลี่ย 8% speedup สำหรับเวิร์กโหลด splitfriendly vectorAdd และฮิสโตแกรม โดยการถ่ายโอนข้อมูลและดำเนินการเคอร์เนล GPU ที่ทับซ้อน ศูนย์คัดลอกโครงร่างได้รับโดยเฉลี่ยของ speedup 58% เนื่องจากโปรแกรมประยุกต์เหล่านี้นำข้อมูล และหาหน่วยความจำทั้งหมดที่ coalesced ScaleGPU ถึงประสิทธิภาพของโครงร่างสำเนาศูนย์จะเข้าถึงหน่วยความจำของ GPU ก่อนส่งต่อการร้องขอหน่วยความจำของ CPU ถัดไป ScaleGPU ได้รับโดยเฉลี่ยของ speedup 32% สำหรับเชื่อมโยงผ่านตัวรหัส modiﬁed ด้วยตนเอง ในขณะที่ทั้งด้วยตนเองประสบรหัส modiﬁed และแผนศูนย์คัดลอกจาก signiﬁcant สูญเสียประสิทธิภาพจากการถ่ายโอนหน่วยความจำเพิ่มขึ้น ScaleGPU รักษาประสิทธิภาพการทำงานพื้นฐานโดยใช้เพียง 25% ของหน่วยความจำ ปรับปรุงประสิทธิภาพการทำงานดังกล่าวมาจากนำข้อมูลบ่อยในหน่วยความจำของ GPU และซ้อนทับกันของการโอนย้ายข้อมูลและการประมวลผล GPU ในที่สุด เส้นทางที่สั้นที่สุดและธนาคารไม่สามารถรันบนพื้นฐานมีหน่วยความจำของ GPU ที่เล็กกว่าเนื่องจากโปรแกรมประยุกต์เหล่านี้ไม่สามารถแบ่งให้ ﬁt ในหน่วยความจำการ GPU เล็ก แม้ว่าร่างสำเนาศูนย์เรียบร้อยทำงานหน่วยความจำของ GPU ที่เล็กกว่า มัน suffers จากการ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

4.2 มีประสิทธิภาพสูงใช้หน่วยความจำของ GPU ที่มีขนาดเล็กรูปที่ 3 แสดงเวลาดำเนินการของมาตรฐานเมื่อเราแตกต่างกันขนาดของหน่วยความจำของ GPU ที่ พื้นฐานและรูปแบบศูนย์การคัดลอกรหัสเอ็ดวิ่งสายโปรแกรมเมอร์ Modi สำหรับ GPU หน่วยความจำขนาดเล็กและสำหรับหน่วยความจำ GPU ข้ามตามลำดับ เราจะประเมินรันไทม์ของ ScaleGPU โดยการลดขนาดของหน่วยความจำ GPU จาก 100% เป็น 12.5% ของขนาดของข้อมูล ปกติเราทำงานของหน่วยความจำของ GPU ที่มีขนาดเล็กเพื่อที่พื้นฐาน 100% ของ GPU หน่วยความจำ รันไทม์แต่ละครั้งจะถูกแบ่งออกเป็นโฮสต์ที่อุปกรณ์เพื่อ (H2D) แฝงโอนอุปกรณ์ที่จะเป็นเจ้าภาพ (D2H) แฝงโอนและแฝงการดำเนินเคอร์เนล GPU มันควรจะตั้งข้อสังเกตว่าเส้นทางที่สั้นที่สุดและบัญชีธนาคารไม่สามารถเอ็ดสาย Modi ตนเองเพื่อ fi เสื้อในหน่วยความจำขนาดเล็กเนื่องจากลักษณะของขั้นตอนวิธีการของพวกเขา ครั้งแรกที่ประสบความสำเร็จใน ScaleGPU เฉลี่ยเพิ่มความเร็ว 8% สำหรับงาน splitfriendly เช่น vectorAdd และกราฟที่ทับซ้อนกันโดยการถ่ายโอนข้อมูลและการประหารชีวิตเคอร์เนล GPU โครงการศูนย์สำเนาประสบความสำเร็จในการเพิ่มความเร็วเฉลี่ย 58% เนื่องจากการใช้งานเหล่านี้ไม่ได้นำมาใช้ข้อมูลและการเข้าถึงหน่วยความจำทั้งหมดจะรวมตัวกัน ScaleGPU ไม่ถึงผลการดำเนินงานโครงการศูนย์สำเนาเป็นมันเข้าถึงหน่วยความจำ GPU ก่อนที่จะส่งต่อการร้องขอไปยังหน่วยความจำซีพียู ถัดไป ScaleGPU ประสบความสำเร็จในการเพิ่มความเร็วเฉลี่ย 32% สำหรับฮอตสปอตกว่ารหัสเอ็ดสาย Modi ตนเอง ในขณะที่ทั้งสองโครงการรหัสและสำเนาศูนย์เอ็ดสาย Modi ตนเองทนทุกข์ทรมานจากการสูญเสียมีนัยสำคัญประสิทธิภาพลาดเทเนื่องจากการโอนหน่วยความจำที่เพิ่มขึ้น ScaleGPU รักษาประสิทธิภาพการทำงานพื้นฐานที่ใช้เพียง 25% ของหน่วยความจำ ปรับปรุงประสิทธิภาพการทำงานดังกล่าวมาจากข้อมูลที่นำมาใช้บ่อยในความทรงจำของ GPU เช่นเดียวกับที่ทับซ้อนกันของการถ่ายโอนข้อมูลและการดำเนินการของ GPU ที่ ในที่สุดเส้นทางที่สั้นที่สุดและบัญชีธนาคารไม่สามารถที่จะทำงานบนพื้นฐานที่มีหน่วยความจำขนาดเล็ก GPU เพราะโปรแกรมเหล่านี้ไม่สามารถที่จะแยกสายเสื้อในหน่วยความจำของ GPU ที่มีขนาดเล็ก แม้ว่าโครงการศูนย์สำเนาประสบความสำเร็จในการทำงานบนหน่วยความจำ GPU ขนาดเล็กก็ทนทุกข์ทรมานจาก

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

4.2 ประสิทธิภาพสูงใช้ GPU หน่วยความจำขนาดเล็กรูปที่ 3 แสดงการเวลามาตรฐาน เมื่อเราเปลี่ยนขนาดของ GPU หน่วยความจำ พื้นฐานและรูปแบบคัดลอกศูนย์เรียกโปรแกรมเมอร์สมัครงาน จึงเอ็ดรหัสสำหรับหน่วยความจำ GPU ที่มีขนาดเล็กและผ่าน GPU หน่วยความจำตามลำดับ เราประเมิน Runtime ของ scalegpu โดยลดขนาดของ GPU หน่วยความจำจาก 100% ถึง 12.5 % ของข้อมูลขนาดเป็นรันไทม์ของ GPU หน่วยความจำขนาดเล็กที่เริ่มต้นด้วยหน่วยความจำ GPU 100% แต่ละตัวก็แบ่งเป็นโฮสต์ไปยังอุปกรณ์ ( h2d ) เวลาโอนอุปกรณ์โฮสต์ ( d2h ) เวลาโอน และ GPU ในการแฝงอยู่ มันควรจะสังเกตว่าเส้นทางที่สั้นที่สุด และไม่สามารถเปิดบัญชีธนาคารได้ด้วยตนเองจึงเอ็ดจึง Modi ในหน่วยความจำขนาดเล็ก เนื่องจากธรรมชาติของอัลกอริทึมของพวกเขา ครั้งแรกscalegpu บรรลุเฉลี่ย 8% สำหรับ splitfriendly SpeedUp ระบบ เช่น vectoradd กราฟและโดยการถ่ายโอนข้อมูลและ GPU ในการประหารชีวิตที่ทับซ้อนกัน โครงการศูนย์ถ่ายเอกสารใช้เฉลี่ย 58% SpeedUp เพราะโปรแกรมเหล่านี้ไม่สามารถเข้าถึงข้อมูลและความทรงจำทั้งหมดจะรวมตัวกัน .scalegpu ไม่ถึงประสิทธิภาพศูนย์คัดลอกโครงร่างของมันใช้ GPU หน่วยความจำก่อนที่จะส่งต่อการร้องขอไปยังหน่วยความจำซีพียู ต่อไป scalegpu บรรลุเฉลี่ย 32% สำหรับ hotspot SpeedUp กว่าตนเอง Modi จึงเอ็ดรหัส ในขณะที่ทั้งตนเอง Modi จึงเอ็ดรหัสและโครงการศูนย์คัดลอกประสบ signi จึงไม่สามารถแสดงความเสียหายเนื่องจากการเพิ่มขึ้นของหน่วยความจำ การโอนย้ายscalegpu รักษาสมรรถนะพื้นฐานโดยใช้เพียง 25% ของหน่วยความจำ การปรับปรุงสมรรถนะดังกล่าวมาจากข้อมูลที่ใช้บ่อยในหน่วยความจำ GPU รวมทั้งที่ทับซ้อนกันของการถ่ายโอนข้อมูลและตัวดำเนินการ ในที่สุด เส้นทางที่สั้นที่สุด และบัญชีธนาคารล้มเหลวที่จะวิ่งบนพื้นฐานกับหน่วยความจำ GPU ที่มีขนาดเล็ก เพราะโปรแกรมเหล่านี้ไม่สามารถแบ่งให้จึงไม่ในหน่วยความจำที่มีขนาดเล็กแม้ว่าโครงการศูนย์คัดลอกประสบความสำเร็จรันบนหน่วยความจำที่มีขนาดเล็ก มันทนทุกข์ทรมานจาก

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.