GPU-CC ARCHITECTURETo better utiliz

GPU-CC ARCHITECTURE
To better utilize the available cores in the GPU, we propose
the GPU-CC architecture, which allows the cores in an
SM to be configured in a network with direct communication,
creating a spatial computing architecture. By moving
data directly from one core to the next, data movement and
control is made implicit in the network and instruction count
can be reduced. Furthermore, each core is assigned one fixed
instruction which it will execute during the whole kernel execution
time. It is stored in a local configuration register
and has to be loaded only once.
The standard GPU architecture is preserved, and no hardware
blocks are removed. Hereby backwards compatibility
for current GPU programs is assured, and programs which
do not benefit of the GPU-CC architecture can use the standard
GPU architecture as is. Only configuration registers
and a communication network with FIFO buffers is added.
The programmer can switch between the GPU’s standard
and GPU-CC architecture at run-time and specifies each
core’s GPU-CC instruction and connections in assembly by
hand. We plan compiler support for future work.
The cores in an SM in the GPU-CC architecture are connected
to each other via a communication network with
FIFO buffers, as shown in Fig. 3. Via five data lanes, named
A to E, cores can send data to each other’s FIFOs. By passing
data directly, the register file is not required and can
be switched off. The multiplexers in the network are controlled
by the configuration registers, creating a static circuit
switched network for the duration of a kernel’s execution.
In GPU-CC the register file and instruction fetch and decode
units are switched off. According to the Integrated
Power and Performance model of Hong and Kim [3] 12% of
the power consumption of a GPU comes from these parts.
Presumably more power is saved because cores execute a
fixed instruction in GPU-CC, and not a mix of (integer and
floating point) instructions. The power used by the communication
network is expected to be low compared to the
register file’s power consumption, as it is smaller in memory
size (see below) and consists of simple FIFO buffers instead
of a multi-bank memory system with operand collectors. In
GPU-CC not all cores are used in every application, which
means some cores can be disabled saving more power.
Each core has three input FIFOs, as a core can execute
instructions with (up to) three input operands. The loadstore
units have two input FIFOs, one for the address and
one for the data in case of a store. All FIFOs have a size of
16 elements, only the address FIFO for the load-store units
is 256 elements. These sizes are empirically determined, in
future work we plan a more detailed evaluation.
Cores are triggered to execute an instruction when all input
FIFOs have a data element available and when all FIFOs
of the receiving cores have space available. The latency of a
load operation in a load-store unit can be very long in case
of a cache miss. The load-store unit only removes an item
from its FIFO if the operation has completed. Therefore the
input FIFO for the addresses is made (much) larger. The
load-store unit has been equipped with a new prefetch element,
which scans the address FIFO. When it detects an
address with a new cache line address, it generates a memory
request to fill the L1 cache with the corresponding cache
line. This way the load-store units’ following load operations
will hit in the L1 cache, resulting in minimal stall cycles.
The main hardware costs of the GPU-CC architecture
are the configuration registers and FIFO buffers. Each of
the 32 cores has a configuration register and three 16 element
FIFOs. Each of the load-store units also has an instruction
cache, one 256 element and one 16 element FIFO.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

สถาปัตยกรรม GPU CCใช้แกนว่างใน GPU ดีกว่า เราเสนอสถาปัตยกรรม GPU CC ซึ่งช่วยให้แกนในการSM กำหนดในเครือข่ายที่มีการสื่อสารโดยตรงสร้างสถาปัตยกรรมคอมพิวเตอร์ปริภูมิ โดยการย้ายข้อมูลโดยตรงจากหลักเดียวกับการเคลื่อนไหวข้อมูลถัดไป และควบคุมทำนัยในจำนวนเครือข่ายและคำแนะนำสามารถลด นอกจากนี้ แต่ละหลักไว้หนึ่งถาวรคำแนะนำซึ่งมันจะดำเนินการในระหว่างการดำเนินการทั้งเคอร์เนลเวลา นั้นถูกจัดเก็บในการลงทะเบียนภายในกำหนดมีให้โหลดเพียงครั้งเดียวรักษาสถาปัตยกรรม GPU มาตรฐาน และไม่มีฮาร์ดแวร์บล็อกจะถูกเอาออก ขอย้อนหลังความเข้ากันได้สำหรับโปรแกรม GPU ปัจจุบันไม่มั่นใจ และโปรแกรมที่ทำไม่ใช้ GPU-CC สถาปัตยกรรมสามารถใช้มาตรฐานสถาปัตยกรรมของ GPU เป็น ทะเบียนตั้งค่าคอนฟิกเท่านั้นและเพิ่มเครือข่ายการสื่อสารกับบัฟเฟอร์ FIFOผู้เขียนโปรแกรมสามารถสลับระหว่างมาตรฐานของ GPUและสถาปัตยกรรม GPU CC ที่ขณะใช้งาน และระบุแต่ละคำสั่ง GPU CC ของหลักและการเชื่อมต่อในแอสเซมบลีโดยมือ เราวางแผนการสนับสนุนของคอมไพเลอร์สำหรับงานในอนาคตเชื่อมต่อแกนในตัว SM ในสถาปัตยกรรม GPU CCกันผ่านเครือข่ายสื่อสารที่มีFIFO บัฟเฟอร์ ดังที่แสดงใน Fig. 3 ผ่านห้าข้อมูลถนนหนทาง ชื่อการ E แกนสามารถส่งข้อมูลไปยัง FIFOs ของผู้อื่นได้ โดยผ่านข้อมูลโดยตรง การลงทะเบียนแฟ้มไม่จำเป็น และสามารถคุณสามารถปิด ควบคุมตัวในเครือข่ายโดยกำหนดค่าลงทะเบียน สร้างวงจรคงสลับเครือข่ายสำหรับช่วงเวลาของการดำเนินการของเคอร์เนลใน GPU CC ทะเบียนไฟล์และคำสั่งนำมาใช้ และถอดรหัสหน่วยถูกปิด ตามที่รวมรูปแบบพลังงานและประสิทธิภาพของ Hong และคิม [3] 12% ของการใช้พลังงานของ GPU มาจากชิ้นส่วนเหล่านี้พลังงานจะถูกบันทึกทับเนื่องจากแกนดำเนินการแก้ไขคำสั่งใน GPU CC และไม่ผสม (จำนวนเต็ม และจำนวนจุดลอยตัว) คำแนะนำ พลังงานที่ใช้ โดยการสื่อสารเครือข่ายคาดว่าจะต่ำเมื่อเทียบกับการลงทะเบียนแฟ้มของพลังงาน ตามที่มีในหน่วยความจำขนาดเล็กขนาด (ดูด้านล่าง) และประกอบด้วยเรื่อง FIFO บัฟเฟอร์แทนของระบบธนาคารหลายหน่วยความจำที่มีตัวถูกดำเนินการสะสม ในแกนที่มีใช้ในทุกโปรแกรม CC GPU ซึ่งหมายความว่า สามารถใช้แกนบางประหยัดพลังงานแต่ละหลักมีสามอินพุต FIFOs เป็นหลักสามารถปฏิบัติคำแนะนำ ด้วย (ถึง) สามตัวถูกดำเนินการป้อนข้อมูล Loadstoreมีสองอินพุต FIFOs หนึ่งสำหรับที่อยู่ และหนึ่งในข้อมูลในกรณีที่ร้านค้า FIFOs ทั้งหมดมีขนาดองค์ประกอบ 16 เฉพาะ FIFO ที่อยู่สำหรับหน่วยโหลดเก็บเป็นองค์ประกอบที่ 256 ขนาดนี้ empirically กำหนด ในทำงานในอนาคตที่เราวางแผนการประเมินรายละเอียดเพิ่มเติมแกนจะถูกทริกเกอร์การดำเนินการคำสั่งเมื่อทั้งหมดเข้าFIFOs มีองค์ประกอบข้อมูลว่าง และเมื่อ FIFOs ทั้งหมดof the receiving cores have space available. The latency of aload operation in a load-store unit can be very long in caseof a cache miss. The load-store unit only removes an itemfrom its FIFO if the operation has completed. Therefore theinput FIFO for the addresses is made (much) larger. Theload-store unit has been equipped with a new prefetch element,which scans the address FIFO. When it detects anaddress with a new cache line address, it generates a memoryrequest to fill the L1 cache with the corresponding cacheline. This way the load-store units’ following load operationswill hit in the L1 cache, resulting in minimal stall cycles.The main hardware costs of the GPU-CC architectureare the configuration registers and FIFO buffers. Each ofthe 32 cores has a configuration register and three 16 elementFIFOs. Each of the load-store units also has an instructioncache, one 256 element and one 16 element FIFO.

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

สถาปัตยกรรม GPU-CC
เพื่อให้ใช้ประโยชน์จากแกนที่มีอยู่ใน GPU
ที่เรานำเสนอสถาปัตยกรรมGPU-CC ซึ่งจะช่วยให้แกนในที่เอสเอ็มที่จะได้รับการกำหนดค่าในเครือข่ายที่มีการสื่อสารโดยตรงที่สร้างสถาปัตยกรรมคอมพิวเตอร์เชิงพื้นที่ โดยการย้ายข้อมูลได้โดยตรงจากที่หนึ่งไปยังอีกหลัก, ข้อมูลการเคลื่อนไหวและการควบคุมจะทำนัยในเครือข่ายและการนับการเรียนการสอนจะลดลง นอกจากนี้แต่ละคอร์ได้รับมอบหมายคงที่หนึ่งในการเรียนการสอนที่จะดำเนินการในระหว่างการดำเนินข้าวเต็มเมล็ดเวลา จะถูกเก็บไว้ในการลงทะเบียนการตั้งค่าในท้องถิ่นและจะต้องมีการโหลดเพียงครั้งเดียว. สถาปัตยกรรม GPU มาตรฐานการเก็บรักษาไว้และไม่มีฮาร์ดแวร์บล็อกจะถูกลบออก ความเข้ากันได้ย้อนหลังขอสำหรับโปรแกรม GPU ปัจจุบันมั่นใจและโปรแกรมที่ไม่ได้รับประโยชน์ของสถาปัตยกรรมGPU-CC สามารถใช้มาตรฐานสถาปัตยกรรมGPU ที่เป็นอยู่ การกำหนดค่าลงทะเบียนเพียงและเครือข่ายการสื่อสารที่มีบัฟเฟอร์ FIFO จะถูกเพิ่ม. โปรแกรมเมอร์สามารถสลับระหว่างมาตรฐานของ GPU และสถาปัตยกรรม GPU-CC ที่ใช้เวลาและระบุแต่ละการเรียนการสอนหลักของGPU-CC และการเชื่อมต่อในการชุมนุมโดยมือ เราวางแผนที่สนับสนุนคอมไพเลอร์สำหรับการทำงานในอนาคต. แกนในเอสเอ็มในงานสถาปัตยกรรม GPU-CC มีการเชื่อมต่อถึงกันผ่านเครือข่ายการสื่อสารที่มีบัฟเฟอร์FIFO ดังแสดงในรูปที่ 3. ผ่านห้าเลนข้อมูลชื่อA ถึง E, แกนสามารถส่งข้อมูลไป FIFOs ของแต่ละคน โดยการส่งผ่านข้อมูลโดยตรงไฟล์การลงทะเบียนไม่จำเป็นต้องใช้และสามารถถูกปิด multiplexers ในเครือข่ายจะถูกควบคุมโดยการกำหนดค่าลงทะเบียน, การสร้างวงจรคงเปิดเครือข่ายในช่วงระยะเวลาของการดำเนินการของเคอร์เนลที่. ใน GPU-CC ไฟล์ทะเบียนและการเรียนการสอนและถอดรหัสเรียกหน่วยปิด ตามที่บูรณาการพลังงานและรูปแบบการดำเนินงานของฮ่องกงและคิม [3] 12% ของการใช้พลังงานของGPU ที่มาจากชิ้นส่วนเหล่านี้. พลังงานสันนิษฐานมากขึ้นจะถูกบันทึกไว้เพราะแกนดำเนินการเรียนการสอนได้รับการแก้ไขใน GPU-CC และไม่ผสมของ (จำนวนเต็มและจุดลอย) คำแนะนำ พลังงานที่ใช้โดยการสื่อสารเครือข่ายคาดว่าจะต่ำเมื่อเทียบกับการใช้พลังงานลงทะเบียนไฟล์ในขณะที่มันมีขนาดเล็กในหน่วยความจำขนาด(ดูด้านล่าง) และประกอบด้วยบัฟเฟอร์ FIFO ง่ายแทนของหน่วยความจำระบบหลายธนาคารที่มีการสะสมตัวถูกดำเนินการ ในGPU-CC แกนไม่ได้ทั้งหมดจะถูกนำมาใช้ในทุกโปรแกรมซึ่งหมายถึงแกนบางส่วนสามารถใช้งานประหยัดพลังงานมากขึ้น. หลักแต่ละคนมีสาม FIFOs การป้อนข้อมูลเป็นหลักสามารถดำเนินการคำแนะนำด้วย(ถึง) สามตัวถูกดำเนินการป้อนข้อมูล loadstore หน่วยมีสอง FIFOs ป้อนข้อมูลหนึ่งสำหรับที่อยู่และหนึ่งสำหรับข้อมูลในกรณีที่มีการจัดเก็บ FIFOs ทั้งหมดมีขนาดของ16 องค์ประกอบเพียง FIFO ที่อยู่สำหรับหน่วยโหลดเก็บ256 องค์ประกอบ ขนาดเหล่านี้จะถูกกำหนดสังเกตุในการทำงานในอนาคตเราวางแผนการประเมินผลรายละเอียดเพิ่มเติม. แกนจะมีการหารือในการดำเนินการเรียนการสอนเมื่อทุกท่านFIFOs มีองค์ประกอบข้อมูลที่มีอยู่และเมื่อ FIFOs ทั้งหมดของแกนที่ได้รับมีพื้นที่ว่าง ความล่าช้าของการดำเนินการโหลดในหน่วยภาระการจัดเก็บจะยาวมากในกรณีของแคชพลาด หน่วยโหลดเท่านั้นเก็บเอารายการจาก FIFO หากดำเนินการได้เสร็จสิ้น ดังนั้นFIFO การป้อนข้อมูลที่อยู่ที่ทำ (มาก) ที่มีขนาดใหญ่ หน่วยโหลดเก็บได้รับการติดตั้งเป็นองค์ประกอบ prefetch ใหม่ซึ่งจะสแกนFIFO ที่อยู่ เมื่อตรวจพบที่อยู่กับที่อยู่แนวแคชใหม่จะสร้างความทรงจำที่ขอให้กรอกแคชL1 กับแคชที่สอดคล้องกันสาย วิธีนี้หน่วยภาระการจัดเก็บการดำเนินงานต่อไปโหลดจะตีในแคช L1 ส่งผลให้ในรอบคอกน้อยที่สุด. ค่าใช้จ่ายในฮาร์ดแวร์หลักของสถาปัตยกรรม GPU-ซีซีที่มีการลงทะเบียนการตั้งค่าและบัฟเฟอร์งานFIFO แต่ละ32 แกนมีการลงทะเบียนการตั้งค่าและ 16 สามองค์ประกอบFIFOs แต่ละหน่วยโหลดเก็บนอกจากนี้ยังมีคำสั่งแคชหนึ่ง 256 องค์ประกอบและเป็นหนึ่งใน 16 FIFO องค์ประกอบ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

gpu-cc สถาปัตยกรรม
ดีกว่าใช้แกนที่มีอยู่ใน GPU , เรานำเสนอ
gpu-cc สถาปัตยกรรมที่ช่วยให้แกนใน
SM จะถูกกำหนดค่าในเครือข่ายการสื่อสารโดยตรง
สร้างสถาปัตยกรรมคอมพิวเตอร์เชิงพื้นที่ โดยย้ายข้อมูลโดยตรงจากหนึ่งหลัก
ไปเคลื่อนไหวข้อมูล และควบคุมได้โดยนัยใน

นับการเครือข่ายและสามารถลด นอกจากนี้แต่ละหลักจะกำหนดตายตัว
การเรียนการสอนซึ่งจะดำเนินการในช่วงทั้งเมล็ดประหาร
ครั้ง มันถูกเก็บไว้ในท้องถิ่นการตั้งค่าลงทะเบียน
และจะต้องมีการโหลดเพียงครั้งเดียว
สถาปัตยกรรม GPU มาตรฐานคือ รักษา และไม่บล็อกฮาร์ดแวร์
จะถูกลบออก ขอหลังเข้ากันได้
สำหรับโปรแกรม GPU ในปัจจุบันจะมั่นใจได้ และโปรแกรมซึ่ง
ไม่ได้ประโยชน์ของ gpu-cc สถาปัตยกรรมสามารถใช้สถาปัตยกรรม GPU มาตรฐาน
เป็น เพียงลงทะเบียนและค่า
เครือข่ายการสื่อสารกับบัฟเฟอร์ FIFO คือเพิ่ม
โปรแกรมเมอร์สามารถสลับระหว่างของ GPU สถาปัตยกรรมและมาตรฐาน
gpu-cc ที่ระยะเวลาและกำหนดหลักการและการเชื่อมต่อในแต่ละ gpu-cc

ประกอบโดยมือ เราวางแผนรวบรวมการสนับสนุนสำหรับการทำงานในอนาคต .
แกนใน SM ใน gpu-cc สถาปัตยกรรมเชื่อม
กับแต่ละอื่น ๆผ่านทางเครือข่ายการสื่อสารกับ
บัฟเฟอร์ FIFO ดังแสดงในรูปที่ 3 ผ่านช่อง 5 ข้อมูล ชื่อ
A ถึง E , แกนสามารถส่งข้อมูลไปยังแต่ละอื่น ๆ ของ fifos . โดยผ่าน
ข้อมูลโดยตรง แฟ้มลงทะเบียน ไม่จําเป็น และสามารถ
จะปิด การมัลติเพล็กเซอร์ในเครือข่ายจะถูกควบคุมโดยการตั้งค่า
ลงทะเบียนการสร้างวงจรสวิตช์เครือข่าย
คงที่ตลอดระยะเวลาของเคอร์เนลประหาร .
ใน gpu-cc แฟ้มลงทะเบียน และการรับและถอดรหัส
หน่วยจะปิด ตามแบบและรูปแบบการทำงานของ
พลังฮองและคุณคิม [ 3 ] 12 % ของการใช้พลังงานของ GPU

พลังมาจากชิ้นส่วนเหล่านี้ สันนิษฐานเพิ่มเติมช่วย เพราะแกนดำเนินการสอน gpu-cc
ถาวร ,

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.