3. OPTERONFAMILY10HPROCESSOR The Opteron family 10h processor is AMD’s 64-bit archi- tecture. There are many 10h processors with the same base core architecture, including the Barcelona, Shanghai, and Istanbul. We use a Barcelona processor (model 2352) for obtaining model data and performing validation. This is a quad-core processor, with a 2.1GHz clock. The single-core micro-architecture is shown in Figure 2. The AMD64 instruction set is implemented using macro- ops and micro-ops. Macro-ops (variable length) are the pri- mary units of work and are broken down into smaller op- erations, called micro-ops (?xed length), that are executed in the processor’s execution units. The AMD Family 10h processors are out-of-order, three-way superscalar and can fetch, decode, issue, and retire up to three AMD64 instruc- tions (macro-ops) per cycle [6]. There are three di?erent instruction decode categories each associated with a speci?c latency. Direct Path Single decodes the less complex instructions that can be handled by the hardware as a single operation (basic arithmetic,logical, move) and has the smallest relative associated latency. Di- rect Path Double instructions are more complex and are typically broken into two independent instructions. Vector Path decodes the most complex instructions by invoking a micro sequencer that executes a micro-code program. The instruction control unit takes the three macro-ops that are produced during each cycle from the early decoders and places them in a centralized, ?xed-issue reorder bu?er (ROB). This bu?er is organized into 24 lines of three macro-ops each. The reorder bu?er allows the instruction control unit to track and monitor up to 72 in-?ight macro-ops (in- teger or ?oating-point). The instruction control unit can then simultaneously dispatch multiple macro-ops from the reorder bu?er to four schedulers, three integer, and one ?oating-point. These schedulers can simultaneously issue up to nine micro-ops to the three general-purpose integer execu- tion units (ALUs), three address-generation units (AGUs), and three ?oating-point execution units [6]. Each integer scheduler is a reservation station that is eight entries deep, for a total queuing system of 24 integer macro- ops. The ?oating-point scheduler handles register renaming and has a dedicated 42-entry scheduler bu?er organized as 14 lines of three macro-ops each. Each reservation station di- vides the macro-ops into integer/?oating-point and address generation micro-ops, as required [6]. The integer execution units (EUs) have a single-cycle la- tency; instructions can issue to these units every cycle. The ?oating-point EUs all have a four-stage pipeline. Many of the FP instructions are allowed to issue to an FP unit every cycle. However, there are also many FP instructions that have issue latencies varying between one issue every two cy- cles to as high as one instruction issue every 17 cycles [6]. The Barcelona has three levels of cache. The level one data and instruction caches are split; the L2 and L3 are uni?ed. The cache and TLB speci?cs are listed in Table 1. The L2 cache has an exclusive architecture, which means it serves as a victim bu?er for the L1 caches. The L3 cache is considered a non-inclusive victim cache architecture and it is optimized for multi-core AMD processors. Blocks are al- located into the L3 on L2 victim/copy-backs. Requests that hit in the L3 cache can either leave the data in the L3 cache - if it is likely the data is being accessed by multiple cores - or remove the data from the L3 cache (and place it solely in the L1 cache, creating space for other L2 victim/copy-backs), if it is likely the data is only being accessed by a single core. The AMD 10h processors implement a two-level transla- tion lookaside bu?er structure. There are two levels each of instruction and data TLBs. Speci?cs for these structures are also listed in Table 1. The AMD 10h core has two load/store units. One is a pre-cache unit (LS1) that holds memory instructions that have been dispatched from the ROB that are waiting for their ad- dress to be generated in an AGU. When a memory access is dispatched to an integer queue, it is also dispatched to one of the 12 entries in the LS1. Load and store instructions will access the L1 cache from the LS1. On a hit, a load in- struction will read the data. However, store instructions will not write until they retire in the ROB. If a memory access misses the cache while in the LS1, it is moved to the 32- entry post-cache (LS2) to wait while the access is satis?ed. All memory accesses wait in the LS2 until retirement.
3 . opteronfamily10hprocessor สำหรับครอบครัวที่ 10h หน่วยประมวลผล AMD 64 บิตหัวหน้า tecture . มีหลายตัว 10h เดียวกันกับฐานหลักสถาปัตยกรรม รวมถึง บาร์เซโลน่า เซี่ยงไฮ้ และอิสตันบูล เราใช้โปรเซสเซอร์รุ่นที่ 2352 ) เพื่อขอรับแบบแสดงข้อมูลและการตรวจสอบ นี้เป็น quad core processor กับ 2.1GHz , นาฬิกาแกนเดี่ยวไมโครเป็นสถาปัตยกรรมที่แสดงในรูปที่ 2 กล่าว ชุดการสอนการใช้แมโครและ Micro - ops OPS แมโครปฏิบัติการ ( ความยาวของตัวแปร ) เป็น pri - แมรี่ หน่วยงาน และพังลง OP - erations ที่เรียกว่า Micro Ops ( ? xed ความยาว ) , ที่ดำเนินการในหน่วยปฏิบัติการของหน่วยประมวลผล ครอบครัว 10h โปรเซสเซอร์ AMD จะออกใบสั่งแบบซูเปอร์สเกลาร์ และสามารถดึง , ถอดรหัส , ปัญหา , และเกษียณถึงสาม ซึ่ง instruc - ใช้งาน ( แมโครปฏิบัติการต่อวงจร [ 6 ] มีอยู่สามจาก การสอน erent ถอดรหัสประเภทแต่ละที่เกี่ยวข้องกับกา ? C แฝงอยู่ ตรงเส้นทางเดียวถอดรหัสซับซ้อนน้อยกว่า คำแนะนำที่สามารถจัดการโดยฮาร์ดแวร์เป็นปฏิบัติการเดี่ยว ( คณิตศาสตร์พื้นฐาน ตรรกะย้าย ) และมีญาติที่เล็กที่สุดที่แฝงอยู่ ตี้ - คำแนะนำคู่เส้นทาง rect ซับซ้อนมากขึ้นและโดยทั่วไปจะแบ่งออกเป็นสองคำแนะนำที่เป็นอิสระ เส้นทางเวกเตอร์ถอดรหัสคำแนะนำที่ซับซ้อนมากที่สุดด้วยการไมโครซีเควนที่รันโปรแกรมรหัสไมโครหน่วยควบคุมการใช้เวลาสามแมโครปฏิบัติการที่ผลิตในแต่ละรอบจากเครื่องแรกและสถานที่ที่พวกเขาในส่วนกลาง ? xed ปัญหาสั่งซื้อบู ? เอ้อ ( ปล้น ) บู ? เอ้อ แบ่งเป็น 24 สายสามแมโครปฏิบัติการแต่ละ การสั่งซื้อใหม่บู ? เอ้อช่วยให้การควบคุมการสอน เพื่อติดตามและตรวจสอบได้ถึง 72 - ? ใช่มาโคร Ops ( ใน ทีเกิลหรือ ? oating จุด )หน่วยควบคุมการสอนสามารถพร้อมกันจัดส่ง Ops แมโครหลายจากสั่งซื้อบู ? เอ้อสี่ schedulers สามจำนวนเต็ม และหนึ่ง oating จุด ตารางเวลาเหล่านี้พร้อมกันสามารถออกได้ถึงเก้าไมโคร Ops กับสามจำนวนเต็ม execu เอนกประสงค์ - tion ( หน่วยที่ 3 หน่วย ) ที่อยู่รุ่น ( และ ) และสาม oating จุดปฏิบัติการหน่วย [ 3 ]แต่ละจำนวนเต็มกำหนดการเป็นจองสถานีที่ 8 รายการลึก , รวมระบบแถวคอยของแมโคร - 24 จำนวนเต็ม OPS ? oating กำหนดการจุดจับเปลี่ยนชื่อลงทะเบียนและมีเฉพาะ 42 รายการตารางเวลาบู ? เอ้อ จัดเป็น 14 สายสามแมโครปฏิบัติการแต่ละ การจองแต่ละสถานี di - vides แมโครปฏิบัติการเป็นจำนวนเต็ม / ? oating จุดและที่อยู่รุ่น Micro Ops ,ต้องเป็น [ 6 ] เป็นหน่วยปฏิบัติการ ( EUS ) มีรอบเดียวลา - tency คำสั่งจะออกหน่วยเหล่านี้ทุกๆรอบ ? oating ชี้อียูมีท่อสี่ขั้นตอน หลายของ FP คำสั่งอนุญาตให้ออกหน่วย FP ทุกๆรอบ อย่างไรก็ตามนอกจากนี้ยังมีคำแนะนำ FP มากมายที่มีปัญหาการเกิดแตกต่างกันระหว่างหนึ่งปัญหาทุกสองไซ - cles สูงเป็นหนึ่งในการสอนปัญหาทุก 17 รอบ [ 6 ] บาร์เซโลน่าได้สามระดับของแคช ระดับหนึ่ง และการแคชข้อมูลจะแยก ; L2 และ L3 เป็นหนึ่ง ? เอ็ด แคชและ TLB speci ? CS อยู่ในตารางที่ 1 L2 แคชมีสถาปัตยกรรมแบบเอกสิทธิ์เฉพาะบุคคลซึ่งหมายความว่ามันเป็นเหยื่อบู ? เอ้อสำหรับ L1 แคช . แคช L3 ถือว่าไม่รวมเหยื่อแคชสถาปัตยกรรมและมันคือการเพิ่มประสิทธิภาพสำหรับมัลติคอร์โปรเซสเซอร์เอเอ็มดี . บล็อกเป็น al - ตั้งอยู่ใน L3 ใน L2 เหยื่อ / คัดลอกกลับขอชมในแคช L3 จะทิ้งข้อมูลในแคช L3 หากมีโอกาสที่ข้อมูลจะถูกเข้าถึงได้โดยแกน - หลาย หรือลบข้อมูลจากแคช L3 ( และสถานที่แต่เพียงผู้เดียวใน L1 แคช , การสร้างพื้นที่สำหรับอื่น ๆ L2 เหยื่อ / คัดลอกหลัง ) ถ้ามันอาจ ข้อมูลเป็นเพียงการเข้าถึงตามหลักเดียวโปรเซสเซอร์ AMD 10h ใช้สอง transla - tion lookaside บู ? เอ้อ โครงสร้าง มีอยู่สองระดับของการสอนและข้อมูล tlbs . กา ? CS สำหรับโครงสร้างเหล่านี้ยังมีการระบุไว้ในตารางที่ 1 เอเอ็มดี 10h หลักมีสองหน่วยโหลด / สโตร์เป็น Pre แคชหน่วย ( ls1 ) ที่ถือคำสั่งหน่วยความจำที่ได้ถูกส่งจากร็อบที่รอให้โฆษณา - เสื้อผ้าของตนเพื่อสร้างขึ้นใน AGU . เมื่อเข้าถึงหน่วยความจำถูกส่งไปจำนวนเต็มคิวก็ยังส่งไปหนึ่งใน 12 รายการใน ls1 . คําแนะนําโหลดและเก็บจะใช้แคช L1 จาก ls1 . กับตีโหลด - struction จะอ่านข้อมูลอย่างไรก็ตาม , แนะนําร้านจะไม่เขียน จนกว่าจะเกษียณในการปล้น ถ้าหน่วยความจำเข้าถึงคิดถึงแคชในขณะ ls1 มันย้ายไปอยู่ที่ 32 - รายการโพสต์แคช ( ls2 ) เพื่อรอเข้าเป็นพอ ? เอ็ด ความทรงจำทั้งหมดเข้าถึงรอใน ls2 จนเกษียณ
การแปล กรุณารอสักครู่..