resides in texture memory because t

resides in texture memory because texture memory is cached and is sufficiently large to accommodate the DFA (reverse trie). While shared and constant memories will result in better performance, neither is large enough to accommodate the DFA (reverse trie). Note that each state of a DFA has A transitions, where A is the alphabet size. For ASCII, A ¼ 256. Assuming that the total number of states is fewer than 65,536, each state transition of a DFA takes 2 bytes. So, a DFA with d states requires 512d bytes. In the 16 KB shared memory that our Tesla has, we can store at best a 32-state DFA. The constant memory on the Tesla is 64 KB. So, this can handle, at best, a 128-state DFA. Since the nodes of the mBM reverse trie are as large as a DFA state, it is not possible to store the reverse trie for any reasonable pattern dictionary in shared or constant memory either. Each of the mBM shift functions, shift1 and shift2, need 2 bytes per reverse-trie node. So, our shared memory can store these functions when the number of nodes does not exceed 4K; constant memory may be used for tries with fewer than 16K nodes. The bad character function BðÞ has 256 entries when the alphabet size is 256. This function may be stored in shared memory.

A nice feature of Algorithm basic is that all T threads that work on a single block can execute in lock-step fashion as there is no divergence in the execution paths of these T threads. This makes it possible for an SM of a GPU to efficiently compute an output block using T threads. With 30 SMs, we can compute 30 output blocks at a time. The pseudocode of Fig. 2 does, however, have deficiencies that are expected to result in nonoptimal performance on a GPU. These deficiencies are described below.

Deficiency D1. Since the input array resides in device memory, every reference to the array input requires a device memory transaction (in this case a read). There are two sources of inefficiency when the read accesses to input are actually made on the Tesla GPU—1) Our Tesla GPU performs device-memory transactions for a half-warp (16)

of threads at a time. The available bandwidth for a single transaction is 128 bytes. Each thread of our code reads 1 byte. So, a half-warp reads 16 bytes. Hence, barring any other limitation of our GPU, our code will utilise 1/8th the available bandwidth between device memory and an SM. 2) The Tesla is able to coalesce the device memory transactions from several threads of a half-warp into a single transaction. However, coalescing occurs only when the device memory accesses of two or more threads in a half-warp lie in the same 128-byte segment of device memory. When Sthread > 128, the values of inputStartIndex for consecutive threads in a half-warp (note that two threads t1 and t2 are in the same half-warp iff bt1=16c¼ bt2=16c) are more than 128 bytes apart. Consequently, for any given value of the loop index i, the read accesses made to the array input by the threads of a half-warp lie in different 128-byte segments and so no coalescing occurs. Although the pseudocode is written to enable all threads to simultaneously access the needed input character from device memory, an actual implementation on the Tesla GPU will serialise these accesses and, in fact, every read from device memory will transmit exactly 1 byte to an SM resulting in a 1/128 utilisation of the available bandwidth.

Deficiency D2. The writes to the array output suffer from deficiencies similar to those identified for the reads from the array input. Assuming that our DFA has no more than 216 ¼

65;536 states, each state can be encoded using 2 bytes. So, a half-warp writes 64 bytes when the available bandwidth for a half-warp is 128 bytes. Further, no coalesce takes place as no two threads of a half-warp write to the same 128-byte segment. Hence, the writers get serialised and the utilised bandwidth is 2 bytes, which is 1/64th of the available bandwidth.

A nice feature of Algorithm basic is that all T threads that work on a single block can execute in lock-step fashion as there is no divergence in the execution paths of these T threads. This makes it possible for an SM of a GPU to efficiently compute an output block using T threads. With 30 SMs, we can compute 30 output blocks at a time. The pseudocode of Fig. 2 does, however, have deficiencies that are expected to result in nonoptimal performance on a GPU. These deficiencies are described below.

Deficiency D1. Since the input array resides in device memory, every reference to the array input requires a device memory transaction (in this case a read). There are two sources of inefficiency when the read accesses to input are actually made on the Tesla GPU—1) Our Tesla GPU performs device-memory transactions for a half-warp (16)

of threads at a time. The available bandwidth for a single transaction is 128 bytes. Each thread of our code reads 1 byte. So, a half-warp reads 16 bytes. Hence, barring any other limitation of our GPU, our code will utilise 1/8th the available bandwidth between device memory and an SM. 2) The Tesla is able to coalesce the device memory transactions from several threads of a half-warp into a single transaction. However, coalescing occurs only when the device memory accesses of two or more threads in a half-warp lie in the same 128-byte segment of device memory. When Sthread > 128, the values of inputStartIndex for consecutive threads in a half-warp (note that two threads t1 and t2 are in the same half-warp iff bt1=16c¼ bt2=16c) are more than 128 bytes apart. Consequently, for any given value of the loop index i, the read accesses made to the array input by the threads of a half-warp lie in different 128-byte segments and so no coalescing occurs. Although the pseudocode is written to enable all threads to simultaneously access the needed input character from device memory, an actual implementation on the Tesla GPU will serialise these accesses and, in fact, every read from device memory will transmit exactly 1 byte to an SM resulting in a 1/128 utilisation of the available bandwidth.

Deficiency D2. The writes to the array output suffer from deficiencies similar to those identified for the reads from the array input. Assuming that our DFA has no more than 216 ¼

65;536 states, each state can be encoded using 2 bytes. So, a half-warp writes 64 bytes when the available bandwidth for a half-warp is 128 bytes. Further, no coalesce takes place as no two threads of a half-warp write to the same 128-byte segment. Hence, the writers get serialised and the utilised bandwidth is 2 bytes, which is 1/64th of the available bandwidth.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

อยู่ในเนื้อความจำเนื่องจากหน่วยความจำเนื้อถูกแค และใหญ่เพียงพอเพื่อรองรับ DFA (trie ย้อนกลับ) ในขณะที่ความทรงจำร่วมกัน และคงจะส่งผลให้ประสิทธิภาพที่ดีขึ้น ไม่ใหญ่พอ DFA (trie ย้อนกลับ) หมายเหตุว่า แต่ละรัฐมี DFA มีเปลี่ยน ที่เป็นขนาดตัวอักษร สำหรับ ASCII, ¼ 256 เป็น สมมติว่าจำนวนรวมของอเมริกาเป็น 65,536 น้อยกว่า การเปลี่ยนสถานะแต่ละของ DFA ใช้ 2 ไบต์ ดังนั้น DFA ด้วย d อเมริกาต้อง 512d ไบต์ ในหน่วยความจำ 16 กิโลไบต์ที่ใช้ร่วมกันที่มีเทสลาของเรา เราสามารถจัดเก็บที่ดีที่สุดเป็น DFA 32 รัฐ หน่วยความจำคงที่บนเทสลาคือ 64 กิโลไบต์ ดังนั้น นี้สามารถจัดการ ที่ดีที่สุด DFA สถานะ 128 โหนดของ trie กลับคลายตัวเป็นใหญ่เป็นรัฐ DFA มันไม่ได้เก็บ trie ย้อนกลับสำหรับพจนานุกรมที่มีรูปแบบที่เหมาะสมใด ๆ ในหน่วยความจำที่ใช้ร่วมกัน หรือคงอย่างใดอย่างหนึ่ง แต่ละฟังก์ชั่นกะคลาย shift1 และ shift2 ต้อง 2 ไบต์ต่อโหน trie ย้อนกลับ ดังนั้น หน่วยความจำของเราสามารถเก็บฟังก์ชันเหล่านี้เมื่อจำนวนโหนไม่เกิน 4K หน่วยความจำคงอาจจะใช้สำหรับพยายามกับน้อยกว่าโหน 16K อักขระไม่ถูกต้องฟังก์ชัน BðÞ มี 256 รายการเมื่อมีขนาดตัวอักษร 256 ฟังก์ชันนี้อาจถูกเก็บไว้ในหน่วยความจำที่ใช้ร่วมกันมีคุณสมบัติที่ดีของอัลกอริทึมพื้นฐานเป็นว่า T เธรดทั้งหมดที่ทำงานบนบล็อกเดียวสามารถดำเนินการในขั้นตอนที่ล็อคแฟชั่นมีไม่ divergence ในเส้นทางการดำเนินการของเธรดเหล่านี้ T นี้จะทำให้การ SM ของ GPU เพื่อบล็อกการแสดงผลที่ใช้เธรด T ที่คำนวณได้อย่างมีประสิทธิภาพ มี 30 SMs เราสามารถคำนวณบล็อกแสดงผล 30 ครั้ง รหัสเทียม 2 รูป อย่างไรก็ตาม มีข้อบกพร่องที่คาดว่าจะส่งผลใน GPU มีประสิทธิภาพ nonoptimal ข้อบกพร่องเหล่านี้ได้อธิบายไว้ด้านล่างนี้ขาด D1 เนื่องจากอาร์เรย์ป้อนข้อมูลอยู่ในหน่วยความจำอุปกรณ์ อ้างอิงไปยังอาร์เรย์ป้อนต้องใช้อุปกรณ์หน่วยความจำธุรกรรม (ในกรณีนี้การอ่าน) มีสองแหล่งของขาดประสิทธิภาพเมื่อ accesses อ่านการป้อนจะทำจริงบน GPU เทสลา — 1) GPU เทสลาของเราทำธุรกรรมของหน่วยความจำอุปกรณ์สำหรับแบบครึ่ง-warp (16)ของเธรดครั้ง มีแบนด์วิธสำหรับธุรกรรมเดี่ยวเป็น 128 ไบต์ แต่ละเธรดการอ่าน 1 ไบต์ ดังนั้น ครึ่ง-warp อ่าน 16 ไบต์ ด้วยเหตุนี้ barring ใด ๆ จำกัด GPU ของเรา รหัสของเราจะใช้ 1/8 มีแบนด์วิธหน่วยความจำอุปกรณ์และการ SM. 2)เทสลาจะโดอุปกรณ์หน่วยความจำธุรกรรมจากหลายเธรดของครึ่ง-warp เป็นธุรกรรมเดียวกัน อย่างไรก็ตาม coalescing เกิดเฉพาะ เมื่ออุปกรณ์หน่วยความจำเข้าถึงของเธรดที่สอง หรือมากกว่าสองโกหกครึ่งวาร์ปในเซ็กเมนต์เดียว 128 ไบต์ของหน่วยความจำอุปกรณ์ เมื่อ Sthread > 128 ค่าของ inputStartIndex สำหรับเธรดที่ต่อเนื่องในครึ่ง-warp (ทราบว่า เธรดที่สอง t1 และ t2 ใน bt1 การ iff วาร์ปครึ่งเดียว = 16c¼ bt2 = 16c) มีมากกว่า 128 ไบต์กัน ดังนั้น สำหรับค่ากำหนดของดัชนีห่วง ฉัน เข้าอ่านที่ทำให้อาร์เรย์ป้อน โดยเธรดโกหกครึ่งวาร์ปในส่วนอื่น 128 ไบต์และ coalescing จึงไม่เกิดขึ้น แม้เขียน pseudocode เพื่อเปิดใช้งานเธรดทั้งหมดถึงพร้อมกันต้องป้อนอักขระจากอุปกรณ์หน่วยความจำ การใช้งานจริงบน GPU เทสลาจะเสนอการเข้าถึงเหล่านี้ และ ในความเป็นจริง อ่านทุกจากอุปกรณ์หน่วยความจำจะส่งตรง 1 ไบต์ไป SM มีผลในการใช้ประโยชน์ 1/128 ของวิธD2 ขาด เขียนเพื่ออาร์เรย์ผลลัพธ์ประสบจากข้อบกพร่องคล้ายกันที่ระบุสำหรับอ่านจากอาร์เรย์ป้อน สมมติว่า DFA เรามี 216 ไม่เกิน¼65; 536 รัฐแต่ละรัฐสามารถถูกเข้ารหัสโดยใช้ 2 ไบต์ ดังนั้น ครึ่ง-warp เขียน 64 ไบต์เมื่อมีแบนด์วิธสำหรับครึ่ง-warp เป็น 128 ไบต์ ต่อไป coalesce ไม่เกิดขึ้นเป็นไม่มีเธรดที่สองของการเขียนครึ่ง warp ที่ 128 ไบต์เซ็กเมนต์เดียวกัน ดังนั้น ตัวเขียนได้รับ serialised และแบนด์วิดธ์ utilised ไบต์ 2 ซึ่งเป็น 1/64 ของวิธ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

อาศัยอยู่ในหน่วยความจำเนื้อเพราะเนื้อผ้าจำแคชและมีขนาดใหญ่พอที่จะรองรับการ DFA (Trie กลับ) ในขณะที่ใช้ร่วมกันและความทรงจำอย่างต่อเนื่องจะส่งผลให้ประสิทธิภาพที่ดีขึ้นทั้งที่มีขนาดใหญ่พอที่จะรองรับเอฟเอ (Trie กลับ) โปรดทราบว่าสถานะของ DFA แต่ละคนมีการเปลี่ยนโดยที่ A คือขนาดตัวอักษร สำหรับ ASCII, A ¼ 256 สมมติว่าจำนวนรวมของสหรัฐอเมริกาคือน้อยกว่า 65,536 แต่ละการเปลี่ยนแปลงสถานะของ DFA ใช้เวลา 2 ไบต์ ดังนั้น DFA กับ D รัฐต้องไบต์ 512d ใน 16 กิโลไบต์หน่วยความจำที่ใช้ร่วมกันที่เทสลาของเรามีเราสามารถจัดเก็บที่ดีที่สุด 32 รัฐ DFA หน่วยความจำอย่างต่อเนื่องในเทสลาเป็น 64 กิโลไบต์ ดังนั้นนี้สามารถจัดการที่ดีที่สุด 128 รัฐ DFA ตั้งแต่โหนดของ MBM ย้อนกลับ Trie มีขนาดใหญ่เป็นรัฐ DFA มันเป็นไปไม่ได้ในการจัดเก็บ Trie กลับหา Dictionary รูปแบบใดที่เหมาะสมในหน่วยความจำที่ใช้ร่วมกันหรือคงที่อย่างใดอย่างหนึ่ง แต่ละฟังก์ชั่น MBM กะ shift1 และ shift2 ต้อง 2 ไบต์ต่อโหนดย้อนกลับ Trie ดังนั้นหน่วยความจำร่วมกันของเราสามารถจัดเก็บฟังก์ชั่นเหล่านี้เมื่อจำนวนโหนดไม่เกิน 4K; หน่วยความจำคงอาจจะใช้สำหรับการพยายามที่มีน้อยกว่า 16K โหนด ฟังก์ชั่นตัวละครที่ไม่ดีBðÞมี 256 รายการเมื่อขนาดตัวอักษรคือ 256 ฟังก์ชั่นนี้อาจจะถูกเก็บไว้ในหน่วยความจำที่ใช้ร่วมกัน.

คุณลักษณะที่ดีของอัลกอริทึมพื้นฐานคือการที่ทุกหัวข้อ T ที่ทำงานบนบล็อกเดียวสามารถดำเนินการในแฟชั่นล็อคขั้นตอนที่มี ไม่มีความแตกต่างในการดำเนินการของเส้นทางเหล่านี้หัวข้อ T ซึ่งทำให้มันเป็นไปได้สำหรับเอสเอ็มของ GPU ในการคำนวณได้อย่างมีประสิทธิภาพป้องกันการส่งออกโดยใช้หัวข้อ T กับ 30 SMS เราสามารถคำนวณ 30 บล็อกการส่งออกในช่วงเวลาที่ pseudocode ของรูป 2 ไม่ แต่มีข้อบกพร่องที่คาดว่าจะส่งผลให้ประสิทธิภาพการทำงาน nonoptimal กับ GPU ข้อบกพร่องเหล่านี้จะอธิบายไว้ด้านล่าง.

ขาด D1 ตั้งแต่อาร์เรย์การป้อนข้อมูลที่อยู่ในหน่วยความจำอุปกรณ์ทุกการอ้างอิงถึงการป้อนข้อมูลอาร์เรย์ต้องใช้หน่วยความจำอุปกรณ์การทำธุรกรรม (ในกรณีนี้การอ่าน) มีสองแหล่งที่มาของการขาดประสิทธิภาพเมื่ออ่านเข้าถึงการป้อนข้อมูลจะทำจริงใน Tesla GPU-1) Tesla GPU ของเราดำเนินการทำธุรกรรมอุปกรณ์หน่วยความจำสำหรับครึ่งวิปริต (16)

ของหัวข้อในเวลา แบนด์วิดธ์ที่มีอยู่สำหรับการทำรายการเดียวคือ 128 ไบต์ ด้ายรหัสของเราแต่ละคนอ่าน 1 ไบต์ ดังนั้นครึ่งวิปริตอ่าน 16 ไบต์ ดังนั้นยกเว้นข้อ จำกัด อื่น ๆ ของ GPU ของเรารหัสของเราจะใช้ 1/8 แบนด์วิธระหว่างหน่วยความจำอุปกรณ์และเอสเอ็ม 2) Tesla สามารถที่จะเชื่อมต่อกันการทำธุรกรรมหน่วยความจำอุปกรณ์จากหลายกระทู้ของครึ่งวิปริตเป็นรายการเดียว อย่างไรก็ตาม coalescing เกิดขึ้นเฉพาะเมื่อหน่วยความจำอุปกรณ์เข้าถึงสองคนหรือมากกว่าในหัวข้อเรื่องโกหกครึ่งวิปริตในส่วน 128 ไบต์เดียวกันของหน่วยความจำอุปกรณ์ เมื่อ Sthread> 128, ค่าของ inputStartIndex สำหรับหัวข้อต่อเนื่องในครึ่งวิปริต (โปรดทราบว่าสองหัวข้อ T1 และ T2 อยู่ในเดียวกันครึ่งวิปริต IFF BT1 = 16c¼ 2 บาท = 16C) มีมากกว่า 128 ไบต์ออกจากกัน ดังนั้นสำหรับค่าใดก็ตามที่ฉันห่วงดัชนีอ่านเข้าถึงที่เกิดขึ้นกับการป้อนข้อมูลอาร์เรย์โดยหัวข้อของการโกหกครึ่งวิปริตในส่วน 128 ไบต์แตกต่างกันและเพื่อไม่ให้เกิดขึ้น coalescing แม้ว่า pseudocode เป็นลายลักษณ์อักษรเพื่อเปิดใช้งานหัวข้อทั้งหมดในการเข้าถึงพร้อมกันตัวท่านจำเป็นจากหน่วยความจำอุปกรณ์การดำเนินงานที่เกิดขึ้นจริงใน Tesla GPU จะ serialise เข้าถึงเหล่านี้และในความเป็นจริงทุกคนอ่านจากหน่วยความจำอุปกรณ์จะส่งตรง 1 ไบต์ไปยังเอสเอ็มที่เกิด ในการใช้ประโยชน์ 1/128 ของแบนด์วิดธ์ที่มีอยู่.

ขาด D2 เขียนเพื่อส่งออกอาร์เรย์ทนทุกข์ทรมานจากการขาดความคล้ายคลึงกับที่ระบุสำหรับการอ่านจากการป้อนข้อมูลอาร์เรย์ สมมติว่า DFA ของเรามีไม่เกิน 216 ¼

65; 536 รัฐแต่ละรัฐสามารถเข้ารหัสโดยใช้ 2 ไบต์ ดังนั้นครึ่งวิปริตเขียนเมื่อ 64 ไบต์แบนด์วิดธ์ที่มีอยู่สำหรับครึ่งวิปริตคือ 128 ไบต์ นอกจากนี้ยังไม่มีการรวมกันจะเกิดขึ้นในขณะที่ไม่มีสองหัวข้อของการเขียนครึ่งวิปริตกับกลุ่ม 128 ไบต์เดียวกัน ดังนั้นผู้เขียนได้รับต่อเนื่องและแบนด์วิดธ์ใช้คือ 2 ไบต์ซึ่งเป็น 1 / 64th ของแบนด์วิดธ์ที่มีอยู่

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

อยู่ในความทรงจำเพราะความทรงจำเนื้อเนื้อเก็บไว้และมีขนาดใหญ่พอเพื่อรองรับ DFA ( ย้อนกลับทรัย ) ในขณะที่ความทรงจำร่วมกันและคงที่จะส่งผลให้ประสิทธิภาพที่ดีขึ้น และมีขนาดใหญ่พอที่จะรองรับ DFA ( ย้อนกลับทรัย ) สังเกตว่า แต่ละรัฐของเอฟมีการเปลี่ยนที่เป็น ตัวอักษร ขนาด สำหรับ ASCII , ¼ 256 . สมมติว่าจำนวนของรัฐน้อยกว่า 65536 แต่ละสถานะของเอฟใช้ 2 ไบต์ ดังนั้น , DFA กับ D รัฐต้อง 512d ไบต์ ใน 16 กิโลไบต์หน่วยความจำที่ใช้ร่วมกันที่เทสลาของเราได้ เราสามารถเก็บที่ดีที่สุด DFA 32 รัฐ ความคงที่ใน Tesla เป็น 64 กิโลไบต์ ดังนั้นนี้สามารถจัดการที่ดีที่สุด , DFA 128 รัฐ เนื่องจากโหนดของ MBM กลับพยายามเป็นรัฐที่มีขนาดใหญ่เป็น DFA , มันเป็นไปไม่ได้ที่จะเก็บกลับพยายามใด ๆที่เหมาะสมในรูปแบบพจนานุกรมร่วมกันหรือหน่วยความจำคงที่เหมือนกัน ของแต่ละกะการทำงานและ shift1 MBM , shift2 ต้องการ 2 ไบต์ต่อย้อนกลับทรัยโหนด ดังนั้น หน่วยความจำที่ใช้ร่วมกันของเราสามารถเก็บฟังก์ชันเหล่านี้เมื่อโหนดไม่เกิน 4K หน่วยความจำคงที่อาจจะใช้เพื่อพยายาม มีน้อยกว่าโหนด 16K เลวตัวฟังก์ชัน B ðÞได้ 256 รายการเมื่อตัวอักษรขนาด 256 . ฟังก์ชันนี้จะถูกเก็บไว้ในหน่วยความจำที่ใช้ร่วมกันคุณสมบัติที่ดีของขั้นตอนวิธีพื้นฐานแค่นี้ T กระทู้ที่ทำบล็อกเดียวสามารถดำเนินการในขั้นตอนการล็อคแฟชั่น ไม่มีความแตกต่างในการเส้นทางของกระทู้ T เหล่านี้ นี้จะทำให้มันเป็นไปได้สำหรับ SM ของ GPU ให้มีประสิทธิภาพการคำนวณผลผลิตการใช้บล็อค T กระทู้ 30 SMS เราสามารถคำนวณ 30 บล็อกออกในเวลา ที่เวปบอร์ดของรูปที่ 2 ไม่ อย่างไรก็ตาม มีข้อที่คาดว่าจะส่งผลให้ประสิทธิภาพ nonoptimal บน GPU . ข้อบกพร่องเหล่านี้จะอธิบายด้านล่างD1 ขาด ตั้งแต่ใส่เรย์อยู่ในหน่วยความจำอุปกรณ์ ทุกการอ้างอิงถึงอาร์เรย์ใส่ต้องใช้หน่วยความจำอุปกรณ์รายการ ( ในกรณีนี้อ่าน ) มีสองแหล่งที่มาของการไร้ประสิทธิภาพ เมื่อความเร็วในการอ่านข้อมูลจะทำใน Tesla GPU Tesla ของเราดำเนินการธุรกรรม gpu-1 ) หน่วยความจำอุปกรณ์สำหรับครึ่งโค้ง ( 16 )กระทู้ที่เวลา แบนด์วิดธ์ที่มีอยู่สำหรับรายการเดียวคือ 128 ไบต์ แต่ละหัวข้อของรหัสของเราอ่าน 1 ไบต์ ดังนั้น ครึ่งบิดอ่าน 16 ไบต์ ดังนั้น ถ้าข้อ จำกัด ใด ๆอื่น ๆของ GPU ของเรา รหัสของเราจะใช้ 1 / แบนด์วิดธ์ที่มีอยู่ระหว่างหน่วยความจำอุปกรณ์และ SM 8 2 ) Tesla สามารถรวมตัวหน่วยความจำอุปกรณ์รายการจากหลายกระทู้ของครึ่งบิดลงในรายการเดียว อย่างไรก็ตาม coalescing เกิดขึ้นเมื่อสองหรือมากกว่าอุปกรณ์หน่วยความจำเข้าถึงกระทู้ในครึ่งบิดอยู่ในส่วนของหน่วยความจำแบบ 128 ไบต์ อุปกรณ์ เมื่อ sthread > 128 , ค่า inputstartindex ติดต่อกันกระทู้ในครึ่งโค้ง ( ทราบว่าสองกระทู้ T1 และ T2 อยู่เหมือนกัน = 16c ¼ครึ่งบิด IFF 1 บาท = 16c ) มากกว่า 128 ไบต์ ต่างหาก ดังนั้น เพื่อให้มูลค่าของดัชนีห่วงผม ความเร็วในการอ่านให้ใส่เรย์ โดยหัวข้อของครึ่งวิปริตนอนในส่วน 128 ไบต์ที่แตกต่างกันและเพื่อไม่ coalescing เกิดขึ้น แม้ว่ารหัสเทียมที่เขียนเพื่อให้หัวข้อทั้งหมดพร้อมกันเข้าถึงต้องการป้อนอักขระจากหน่วยความจำอุปกรณ์ , การใช้จริงบน GPU Tesla จะ serialise เหล่านี้เข้าถึงและในความเป็นจริงทุกอ่านจากหน่วยความจำอุปกรณ์จะส่งสัญญาณว่า 1 ไบต์มี SM ผลใน 1 / 128 ใช้แบนด์วิดธ์ที่มีอยู่ .D2 ขาด ที่เขียนถึงอาร์เรย์ส่งออกประสบจากข้อบกพร่องที่คล้ายกับที่ระบุสำหรับอ่านข้อมูลจากอาร์เรย์ . สมมติว่า DFA ของเราไม่มีมากกว่า 216 ¼65 ; แต่รัฐแต่ละรัฐสามารถเข้ารหัสโดยใช้ 2 ไบต์ ดังนั้น ครึ่งแล้วเขียน 64 ไบต์เมื่อแบนด์วิดธ์ที่มีอยู่ครึ่งบิดเป็น 128 ไบต์ เพิ่มเติม ไม่มีการรวมตัวเกิดขึ้นเป็นสองเส้นครึ่ง วาร์ป เขียนเหมือนกัน 128 ไบต์ ส่วน ดังนั้น ผู้เขียนได้รับ serialised และใช้แบนด์วิดธ์ 2 ไบต์ ซึ่งเป็น 1 ใน 64 ของแบนด์วิดธ์ที่มีอยู่

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.