register load and register-to-memory store instructions. Note that many of the instructions use a three-operand format. Also, many instructions have a number of
variants, depending on the location of the operands. A source operand may be a
vector register (V), storage (S), or a scalar register (Q). The target is always a vector register, except for comparison, the result of which goes into the vector-mask
register. With all these variants, the total number of opcodes (distinct instructions)
is 171. This rather large number, however, is not as expensive to implement as
might be imagined. Once the machine provides the arithmetic units and the data
paths to feed operands from storage, scalar registers, and vector registers to the
vector pipelines, the major hardware cost has been incurred. The architecture can,
with little difference in cost, provide a rich set of variants on the use of those registers and pipelines.
Most of the instructions in Table 17.3 are self-explanatory. The two summation instructions warrant further explanation. The accumulate operation adds together the elements of a single vector (ACCUMULATE) or the elements of the
product of two vectors (MULTIPLY-AND-ACCUMULATE). These instructions
present an interesting design problem. We would like to perform this operation as
rapidly as possible, taking full advantage of the ALU pipeline. The difficulty is that
the sum of two numbers put into the pipeline is not available until several cycles
later. Thus, the third element in the vector cannot be added to the sum of the first
two elements until those two elements have gone through the entire pipeline. To
overcome this problem, the elements of the vector are added in such a way as to
produce four partial sums. In particular, elements 0, 4, 8, 12,...,124 are added in
that order to produce partial sum 0; elements 1, 5, 9, 13,...,125 to partial sum 1;
elements 2, 6, 10, 14,...,126 to partial sum 2; and elements 3, 7, 11, 15,...,127 to
partial sum 4. Each of these partial sums can proceed through the pipeline at top
speed, because the delay in the pipeline is roughly four cycles. A separate vector
register is used to hold the partial sums. When all elements of the original vector
have been processed, the four partial sums are added together to produce the final
result. The performance of this second phase is not critical, because only four vector elements are involved.
ลงทะเบียนโหลดและลงทะเบียนเพื่อหน่วยความจำเก็บคำแนะนำ ทราบว่าส่วนมากของคำแนะนำการใช้งานรูปแบบสามตัวถูกดำเนินการ นอกจากนี้ยังมีคำแนะนำหลายมีจำนวนของสายพันธุ์
ขึ้นอยู่กับสถานที่ตั้งของตัวถูกดำเนินการ ตัวถูกดำเนินการแหล่งที่มาอาจจะเป็นเวกเตอร์ที่ลงทะเบียน
(V), จัดเก็บ (s), หรือลงทะเบียนเกลา (Q) เป้าหมายคือเสมอลงทะเบียนเวกเตอร์ยกเว้นสำหรับการเปรียบเทียบผลจากการที่จะไปลงในเวกเตอร์หน้ากาก-
ลงทะเบียน สายพันธุ์เหล่านี้ทั้งหมดจำนวนรวมของ opcodes (คำแนะนำที่แตกต่างกัน)
เป็น 171 นี้จำนวนค่อนข้างใหญ่ แต่ไม่เป็นที่มีราคาแพงในการดำเนินการเป็น
อาจจะมีจินตนาการ เมื่อเครื่องให้หน่วยคำนวณและข้อมูลที่
เส้นทางที่จะเลี้ยงตัวถูกดำเนินการจากการจัดเก็บจิสเกลาร์และเวกเตอร์จิสท่อเวกเตอร์
ค่าใช้จ่ายฮาร์ดแวร์ที่สำคัญได้รับการที่เกิดขึ้น สถาปัตยกรรมสามารถ
ด้วยความแตกต่างเล็ก ๆ น้อย ๆ ในค่าใช้จ่ายให้ชุดสมบูรณ์ของสายพันธุ์กับการใช้งานของผู้ที่ลงทะเบียนและท่อ.
ส่วนใหญ่ของคำแนะนำใน 17.3 ตารางอธิบายได้ด้วยตนเอง สองคำแนะนำบวกรับประกันคำอธิบายเพิ่มเติมการดำเนินงานร่วมกันสะสมเพิ่มองค์ประกอบของเวกเตอร์เดียว (สะสม) หรือองค์ประกอบของผลิตภัณฑ์
ของสองเวกเตอร์ (คูณและสะสม) คำแนะนำเหล่านี้
นำเสนอปัญหาการออกแบบที่น่าสนใจ เราต้องการที่จะดำเนินการนี้เป็น
อย่างรวดเร็วที่สุดเท่าที่จะได้รับผลประโยชน์เต็มรูปแบบของท่ออะลูมิเนียม ความยากลำบากก็คือว่า
ผลรวมของตัวเลขสองใส่ลงไปในท่อจะไม่สามารถใช้ได้จนกว่าจะมีหลายรอบ
ภายหลัง ดังนั้นองค์ประกอบที่สามในเวกเตอร์ไม่สามารถเพิ่มผลรวมของทั้งสององค์ประกอบแรก
จนกระทั่งทั้งสององค์ประกอบได้ผ่านท่อทั้งหมด ไป
เอาชนะปัญหานี้องค์ประกอบของเวกเตอร์ที่มีการเพิ่มในลักษณะที่เป็นไปได้
ผลิตสี่ผลรวมบางส่วน โดยเฉพาะอย่างยิ่ง 0 ธาตุ 4, 8, 12, ... ,124 มีการเพิ่มใน
ว่าเพื่อผลิต 0 ผลรวมบางส่วน; 1 5 องค์ประกอบ, 9, 13, ... , 125 ผลรวมบางส่วน 1; 2 องค์ประกอบ
, 6, 10, 14, ... , 126 ผลรวมบางส่วน 2 และ 3 7 ชิ้น, 11, 15, ... , 127
ผลรวมบางส่วน 4 แต่ละผลรวมบางส่วนเหล่านี้สามารถดำเนินการผ่านท่อที่ความเร็ว
ด้านบนเพราะความล่าช้าในท่อประมาณสี่รอบ เวกเตอร์ที่แยกต่างหาก
ลงทะเบียนถูกนำมาใช้เพื่อเก็บผลรวมบางส่วนเมื่อทุกองค์ประกอบของเวกเตอร์เดิม
ได้รับการประมวลผลสี่ผลรวมบางส่วนที่มีการเพิ่มเข้าด้วยกันเพื่อก่อให้เกิดผลลัพธ์
สุดท้าย ประสิทธิภาพการทำงานของขั้นที่สองนี้ไม่ได้เป็นสิ่งสำคัญเพราะเพียงสี่องค์ประกอบเวกเตอร์ที่มีส่วนเกี่ยวข้อง
การแปล กรุณารอสักครู่..

โหลดการลงทะเบียนและลงทะเบียนการจำเก็บคำแนะนำ หมายเหตุว่า คำสั่งมากมายใช้รูปสามดำเนิน คำแนะนำต่าง ๆ มีจำนวน
ย่อย ขึ้นอยู่กับตำแหน่งของตัวถูกดำเนินการ ดำเนินการแหล่งอาจเป็น
เวกเตอร์ทะเบียน (V), เก็บ (S), หรือทะเบียนสเกลา (Q) เป้าหมายอยู่เสมอทะเบียนเวกเตอร์ ยกเว้นเปรียบเทียบ ผลของการไปในรูปแบบเวกเตอร์
ลงทะเบียน มีทั้งหมดเหล่านี้ย่อย จำนวน opcodes (คำแนะนำมา)
เป็น 171 หมายเลขนี้ค่อนข้างใหญ่ อย่างไรก็ตาม ไม่แพงที่สามารถเป็น
อาจจินตนาการได้ เมื่อเครื่องจักรมีหน่วยเลขคณิตและข้อมูล
เส้นทางอาหารตัวถูกดำเนินการจากที่เก็บ ทะเบียนสเกลา และเวกเตอร์ทะเบียนไป
เวกเตอร์ท่อ ต้นทุนฮาร์ดแวร์ที่สำคัญได้เกิดขึ้น สถาปัตยกรรมสามารถ,
มีความแตกต่างเล็ก ๆ น้อย ๆ ในต้นทุน ให้อุดมไปด้วยชุดของตัวแปรการใช้ที่ลงทะเบียนแล้วท่อ
คำแนะนำในตาราง 17.3 มี self-explanatory คำแนะนำรวมสองรับประกันเพิ่มเติมคำอธิบาย เพิ่มการ accumulate กันองค์ประกอบของเวกเตอร์เดียว (ACCUMULATE) หรือองค์ประกอบของการ
ผลิตภัณฑ์ของสองเวกเตอร์ (คูณ และ-ACCUMULATE) คำแนะนำเหล่านี้
นำเสนอปัญหาการออกแบบน่าสนใจ เราต้องการดำเนินการนี้เป็น
อย่างรวดเร็วที่สุด ประโยชน์ของไปป์ไลน์เสริมอะลูมิเนียมเต็ม ความยากคือ
ผลบวกของสองจำนวนที่ใส่ลงไปในขั้นตอนไม่พร้อมใช้งานจนกระทั่งหลายรอบ
ในภายหลัง ดังนั้น องค์ประกอบที่สามในเวกเตอร์ไม่สามารถเพิ่มจำนวนแรก
สององค์จนกระทั่งองค์ประกอบที่สองที่ได้ไปผ่านขั้นตอนทั้งหมดได้ การ
เอาชนะปัญหา มีเพิ่มองค์ประกอบของเวกเตอร์ในลักษณะเป็น
ผลิตผลสี่บางส่วน ในองค์ประกอบเฉพาะ 0, 4, 8, 12,...,124 เพิ่มใน
ที่ใบสั่งผลิตบางส่วนรวม 0 องค์ประกอบ 1, 5, 9, 13,..., 125 จะคิดผลรวมบางส่วน 1;
องค์ประกอบ 1, 2, 6, 10, 14,..., 126 จะคิดผลรวมบางส่วน 2 และองค์ประกอบที่ 3, 7, 11, 15,..., 127 การ
ผลรวมบางส่วน 4 ของผลรวมบางส่วนเหล่านี้สามารถดำเนินการผ่านขั้นตอนด้านบน
เร็ว เนื่องจากความล่าช้าในขั้นตอนนี้ประมาณสี่รอบได้ เวกเตอร์ต่างหาก
ทะเบียนถูกใช้เพื่อเก็บผลบางส่วน เมื่อองค์ประกอบทั้งหมดของเวกเตอร์เดิม
ได้ประมวลผล ผลรวมบางส่วน 4 บวกกันการผลิตสุดท้าย
ผล ประสิทธิภาพของขั้นตอนที่สองนี้ไม่สำคัญ เนื่องจากเกี่ยวข้องกับองค์ประกอบของเวกเตอร์สี่เท่านั้น
การแปล กรุณารอสักครู่..

การลงทะเบียนและการโหลดข้อมูลคำแนะนำจัดเก็บลงทะเบียน - - หน่วยความจำ โปรดทราบว่าจำนวนมากของคำแนะนำที่ใช้รูปแบบสาม - ค่าด้านซ้ายมือให้ นอกจากนี้ยังมีคำแนะนำจำนวนมากจำนวนหนึ่งของ
ซึ่งจะช่วยรุ่นต่างๆขึ้นอยู่กับที่ตั้งของตัวดำเนินการได้ ค่าด้านซ้ายมือแหล่งที่อาจลงทะเบียน
vector ( V ),อุปกรณ์การจัดเก็บ( S )หรือรูลแซ็กคารินซอสลงทะเบียน( Q ) เป้าหมายอยู่เสมอลงทะเบียนเวกเตอร์ยกเว้นสำหรับการเปรียบเทียบผลที่ได้ของที่จะเข้าสู่เวกเตอร์ - หน้ากาก
ลงทะเบียนได้ พร้อมด้วยความแตกต่างทั้งหมดนี้จำนวนรวมของระบบปฏิบัติการแล้ว(ขั้นตอนที่แตกต่างกัน)
คือ 171 มากขนาดใหญ่จำนวนมากแห่งนี้แต่ถึงอย่างไรก็ตามยังมีไม่ได้แพงมากในการใช้งานเป็น
อาจจินตนาการได้ เมื่อเครื่องจัดให้บริการชุดวิชาเลขที่และข้อมูลที่
ซึ่งจะช่วยพาธที่จะประมวลผลชุดอาหารสัตว์จากการจัดเก็บข้อมูลรูลแซ็กคารินซอสรีจิสเตอร์และ Initialization Vector แบบบันทึกการสอบสวนหรือ
ซึ่งจะช่วยได้ค่าใช้จ่ายด้านฮาร์ดแวร์ที่สำคัญได้มีการเกิดขึ้น สามารถสถาปัตยกรรม
พร้อมด้วยความแตกต่างเพียงเล็กน้อยในราคาประหยัดให้ตั้งค่าที่หลากหลายของความแตกต่างในการใช้งานได้ของรีจิสเตอร์และท่อ.
คำแนะนำที่อยู่ในตาราง 17.3 ส่วนใหญ่เป็นแบบบริการตัวเอง - การอธิบาย สองคำแนะนำการรวมที่รับประกันชี้แจงเพิ่มเติมต่อไปเก็บสะสมไว้การทำงานร่วมกันที่จะเพิ่มองค์ประกอบของปัจจัยเดียว(สะสม)หรือองค์ประกอบของ
ซึ่งจะช่วย ผลิตภัณฑ์ ของสององค์ประกอบ(ทวีมากขึ้นและสะสม) คำแนะนำเหล่านี้
ปัจจุบันปัญหาที่มีการออกแบบอย่างน่าสนใจ เราจะเหมือนกับการทำตามขั้นตอนนี้เป็น
อย่างรวดเร็วเป็นไปได้โดยใช้ประโยชน์อย่างเต็มที่จากท่อส่ง Alu ได้ ความยากอยู่ที่
ตามมาตรฐานจำนวนเงินของสองหมายเลขใส่ลงในท่อที่ไม่มีจนกว่าหลายรอบ
ใน ภายหลัง ดังนั้นองค์ประกอบที่สามในปัจจัยที่ไม่สามารถเพิ่มลงในจำนวนเงินที่
ซึ่งจะช่วยเป็นครั้งแรกของทั้งสองส่วนประกอบที่จนกว่าสองส่วนประกอบที่ได้ผ่านขั้นตอนทั้งหมด
ซึ่งจะช่วยในการเอาชนะปัญหานี้ปัจจัยสำคัญของปัจจัยที่จะถูกเพิ่มลงในทางที่จะ
ซึ่งจะช่วยสร้างสี่จำนวนเงินบางส่วน ในเฉพาะองค์ประกอบ 048 , 12 ,124 จะถูกเพิ่มลงใน
ซึ่งจะช่วยให้การผลิตบางส่วนจำนวนเงิน 0 ;องค์ประกอบ 1 , 5 , 9 , 13, ..., 125 ในบางส่วนจำนวนเงิน 1 ;
องค์ประกอบ 2 , 6 , 10 , 14, ..., 126 ในบางส่วนจำนวนเงิน 2 ,และองค์ประกอบ 3 , 7 , 11 , 15, ..., 127 เพื่อ
บางส่วนจำนวนเงิน 4 . จำนวนเงินบางส่วนแต่ละชนิดนี้สามารถดำเนินการผ่านทางท่อที่ด้านบน
ซึ่งจะช่วยความเร็วเพราะการหน่วงเวลาที่อยู่ในไปป์ไลน์ที่ประมาณสี่รอบ
ซึ่งจะช่วยแยกออกจากกันหรือลงทะเบียนที่จะใช้ในการค้างไว้จำนวนเงินบางส่วนเมื่อส่วนประกอบทั้งหมดของเวกเตอร์แบบดั้งเดิมที่ได้รับการดำเนินการ
สี่จำนวนเงินบางส่วนจะถูกเพิ่มลงในการร่วมกันผลิตสุดท้าย
ซึ่งจะช่วยส่งผลให้ได้ ประสิทธิภาพ การทำงานในระยะที่สองนี้เป็นสิ่งสำคัญไม่ใช่เพราะมีเพียงสี่องค์ประกอบหรือมีส่วนเกี่ยวข้องกับ
การแปล กรุณารอสักครู่..
