in segments, the second processes e

in segments, the second processes each segment on the GPU, and third reads the results for each segment back from device memory asynchronously. To ensure that the processing of a segment does not begin before the asynchronous transfer of that segments data from a host to device completes and also that the reading of the results for a segment begins only after the completion of the processing of the segment, CUDA provides the concept of a stream. Within a stream, tasks are done in sequence. With reference to Fig. 4, the number of streams equals the number of segments and the tasks in the ith stream are: write segment i to device memory, process segment i, read the results for segment i from device memory. To get the correct results, each segment sent to the device memory must include the additional maxL 1 characters needed to detect matches that cross segment boundaries.

For strategy A to work, we must have sufficient device memory to accommodate the input data for all segments as well as the results from all segments. Fig. 5 gives an alternative strategy that requires only sufficient device memory for two segments (two input buffers IN0 and IN1 and two output buffers OUT0 and OUT1). In this strategy, the GPU processes input data that is in IN0 (IN1) and writes the results to OUT0 (OUT1). While the GPU is using buffers IN0 and OUT0 (or IN1 and OUT1) in this way, the host writes to IN1 and reads from OUT1 (or IN0 and OUT0). We could, of course, couple strategies A and B to obtain a hybrid strategy.

We analyse the relative time performance of these two host-to-host strategies in the next section.

4.2 Completion Time-One I/O Channel

In this section, we analyse the performance of strategies A and B for GPUs such as the GT200 and C1060 that have a single I/O channel to the host. In this case, it is not possible to overlap the transfer of input data from a host to GPU with the transfer of results from GPU to host. Fig. 6 summarises the notation used in our analysis of the completion time of strategies A and B.

For our analysis, we make several simplifying assumptions as below:

1. The time, tw, to write or copy a segment of input data from the host to the device memory is the same for all segments.

2. The time, tp, the GPU takes to process a segment of input data and create its corresponding output segment is the same for all segments.

3. The time, tr, to read or copy a segment of output data from the host to the device memory is the same for all segments.

4. The write, processing, and read for each segment begins at the earliest possible time for the chosen strategy and completes tw, tp, and tr units later, respectively.

5. In every feasible strategy, the relative order of segment writes, processing, and reads is the same and is segment 0, followed by segment 1;..., and ending with segments 1, where s is the number of segments.

For strategy A to work, we must have sufficient device memory to accommodate the input data for all segments as well as the results from all segments. Fig. 5 gives an alternative strategy that requires only sufficient device memory for two segments (two input buffers IN0 and IN1 and two output buffers OUT0 and OUT1). In this strategy, the GPU processes input data that is in IN0 (IN1) and writes the results to OUT0 (OUT1). While the GPU is using buffers IN0 and OUT0 (or IN1 and OUT1) in this way, the host writes to IN1 and reads from OUT1 (or IN0 and OUT0). We could, of course, couple strategies A and B to obtain a hybrid strategy.

We analyse the relative time performance of these two host-to-host strategies in the next section.

4.2 Completion Time-One I/O Channel

In this section, we analyse the performance of strategies A and B for GPUs such as the GT200 and C1060 that have a single I/O channel to the host. In this case, it is not possible to overlap the transfer of input data from a host to GPU with the transfer of results from GPU to host. Fig. 6 summarises the notation used in our analysis of the completion time of strategies A and B.

For our analysis, we make several simplifying assumptions as below:

1. The time, tw, to write or copy a segment of input data from the host to the device memory is the same for all segments.

2. The time, tp, the GPU takes to process a segment of input data and create its corresponding output segment is the same for all segments.

3. The time, tr, to read or copy a segment of output data from the host to the device memory is the same for all segments.

4. The write, processing, and read for each segment begins at the earliest possible time for the chosen strategy and completes tw, tp, and tr units later, respectively.

5. In every feasible strategy, the relative order of segment writes, processing, and reads is the same and is segment 0, followed by segment 1;..., and ending with segments 1, where s is the number of segments.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ในเซ็กเมนต์ ที่สองแต่ละส่วนบน GPU ประมวลผล และสาม อ่านผลลัพธ์สำหรับแต่ละส่วนหลังจากหน่วยความจำอุปกรณ์แบบอะซิงโครนัส เพื่อให้แน่ใจว่า การประมวลผลเป็นส่วนที่เริ่มก่อนเสร็จสิ้นการแบบอะซิงโครนัสโอนย้ายข้อมูลส่วนนั้นจากโฮสต์ไปยังอุปกรณ์ และยังว่า การอ่านผลลัพธ์ของเซ็กเมนต์เริ่มต้นหลังจากเสร็จสิ้นการประมวลผลของเซ็กเมนต์ CUDA แสดงแนวคิดของสตรีม ภายในสตรีม งานที่จะทำในลำดับ โดยอ้างอิงรูป 4 หมายเลขของกระแสข้อมูลเท่ากับจำนวนกลุ่ม และงานในกระแสระยะ: ฉันอุปกรณ์หน่วยความจำ ขั้นตอนการแบ่งเซ็กเมนต์ อ่านผลลัพธ์สำหรับเซ็กเมนต์เขียนฉันจากอุปกรณ์หน่วยความจำ เพื่อให้ได้ผลลัพธ์ถูกต้อง ส่งไปยังอุปกรณ์หน่วยความจำแต่ละส่วนต้องมีอักขระเพิ่มเติม maxL 1 ต้องตรวจสอบตรงกันที่ข้ามขอบเขตของเซ็กเมนต์สำหรับกลยุทธ์การทำงาน เราต้องมีหน่วยความจำอุปกรณ์ที่เพียงพอเพื่อรองรับข้อมูลป้อนเข้าสำหรับเซ็กเมนต์ทั้งหมดเป็นผลจากทุกภาคส่วน รูปที่ 5 ให้มีกลยุทธ์ทางเลือกที่ต้องการหน่วยความจำอุปกรณ์เพียงพอสำหรับเซ็กเมนต์ที่สอง (สองอินพุตบัฟเฟอร์ IN0 และ IN1 และสองบัฟเฟอร์ OUT1 และ OUT0) ในนี้กลยุทธ์ GPU กระบวนการป้อนข้อมูลที่อยู่ใน IN0 (อิน 1) และเขียนผลการ OUT0 (OUT1) ในขณะที่ GPU ใช้บัฟเฟอร์ IN0 และ OUT0 (หรือ IN1 และ OUT1) วิธีนี้ โฮสต์เขียน IN1 และอ่าน จาก OUT1 (หรือ IN0 OUT0) นอกจากนี้เราแน่นอน อาจ คู่กลยุทธ์ A และ B รับกลยุทธ์ไฮบริดเราวิเคราะห์ประสิทธิภาพสัมพัทธ์เวลาของโฮสต์กับโฮสต์เหล่านี้สองกลยุทธ์ในส่วนถัดไป4.2 I/O เสร็จสมบูรณ์เวลาหนึ่งช่องทางในส่วนนี้ เราต้องวิเคราะห์ประสิทธิภาพของกลยุทธ์ที่ A และ B สำหรับ Gpu GT200 และ C1060 ที่มี I/O ช่องเดียวกับโฮสต์ ในกรณีนี้ มันไม่ได้ซ้อนทับกับการถ่ายโอนข้อมูลที่ป้อนจากโฮสต์ไป GPU กับการโอนย้ายผลจาก GPU กับโฮสต์ รูป 6 สรุปสัญกรณ์ที่ใช้ในการวิเคราะห์ของเราเวลาความสมบูรณ์ของกลยุทธ์ที่ A และ bการวิเคราะห์ของเรา เราทำให้สมมติฐานหลายซับซ้อนเป็นด้านล่าง:1. เวลา tw การเขียน หรือคัดลอกส่วนของอินพุต ข้อมูลจากโฮสต์ในหน่วยความจำอุปกรณ์ได้เหมือนกันสำหรับเซ็กเมนต์ทั้งหมด2. เวลา tp ใช้ GPU ในการประมวลผลส่วนของข้อมูลการป้อนเข้า และสร้างเซ็กเมนต์ของผลลัพธ์ที่สอดคล้องกันจะเหมือนกันสำหรับเซ็กเมนต์ทั้งหมด3. เวลา tr การอ่าน หรือคัดลอกส่วนของผลลัพธ์ ข้อมูลจากโฮสต์ในหน่วยความจำอุปกรณ์ได้เหมือนกันสำหรับเซ็กเมนต์ทั้งหมด4. การเขียน การประมวลผล และการอ่านสำหรับแต่ละส่วนเริ่มในเวลาได้เร็วที่สุดสำหรับกลยุทธ์ใน และเสร็จสิ้น tw, tp และ tr หน่วยในภายหลัง ตามลำดับ5. ในทุกกลยุทธ์ที่เป็นไปได้ ลำดับญาติของเซ็กเมนต์เขียนข้อมูล ประมวลผล และอ่านเหมือนกัน และเป็นเซ็กเมนต์ 0 ตาม ด้วยส่วน 1;..., และลงท้าย ด้วยเซ็กเมนต์ 1 โดยที่ s คือ หมายเลขของเซ็กเมนต์นี้

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ในส่วนกระบวนการที่สองส่วนแต่ละ GPU และสามอ่านผลสำหรับแต่ละกลุ่มกลับมาจากหน่วยความจำอุปกรณ์ถ่ายทอดสด เพื่อให้มั่นใจว่าการดำเนินการของกลุ่มจะไม่ได้เริ่มต้นก่อนที่จะมีการถ่ายโอนไม่ตรงกันของข้อมูลส่วนที่จากโฮสต์ไปยังอุปกรณ์เสร็จสมบูรณ์และที่อ่านผลสำหรับส่วนเริ่มต้นเท่านั้นหลังจากเสร็จสิ้นการประมวลผลของส่วนที่ CUDA ให้ แนวคิดของกระแส ภายในกระแสงานจะทำในลำดับ มีการอ้างอิงถึงรูป 4 จำนวนลำธารเท่ากับจำนวนของกลุ่มและงานในกระแสที่ i เป็น: การเขียนส่วนผมไปยังอุปกรณ์หน่วยความจำส่วนขั้นตอนผมอ่านผลสำหรับส่วนฉันจากหน่วยความจำอุปกรณ์ เพื่อให้ได้ผลลัพธ์ที่ถูกต้องในแต่ละส่วนที่ส่งไปยังหน่วยความจำอุปกรณ์จะต้องมีการเพิ่มเติม maxL 1 ตัวละครที่จำเป็นในการตรวจสอบตรงข้ามเขตแดนส่วน.

สำหรับกลยุทธ์ในการทำงานเราจะต้องมีหน่วยความจำอุปกรณ์เพียงพอที่จะรองรับการป้อนข้อมูลสำหรับทุกกลุ่มเป็น รวมทั้งผลที่ได้จากทุกส่วน มะเดื่อ. 5 ให้กลยุทธ์ทางเลือกที่ต้องใช้หน่วยความจำอุปกรณ์เพียงเพียงพอสำหรับทั้งสองกลุ่ม (สองอินพุตยัง IN0 บัฟเฟอร์และ IN1 และสองเอาท์พุทบัฟเฟอร์ OUT0 และ OUT1) ในกลยุทธ์นี้ GPU ประมวลผลข้อมูลของท่านที่อยู่ในยัง IN0 (IN1) และเขียนผลให้ OUT0 (OUT1) ในขณะที่ GPU คือใช้ยัง IN0 บัฟเฟอร์และ OUT0 (หรือ IN1 และ OUT1) ในลักษณะนี้โฮสต์เขียนไป IN1 และอ่านจาก OUT1 (หรือยัง IN0 และ OUT0) เราสามารถของหลักสูตรกลยุทธ์คู่ A และ B จะได้รับกลยุทธ์ไฮบริด.

เราวิเคราะห์ประสิทธิภาพการทำงานเวลาญาติของทั้งสองกลยุทธ์โฮสต์ที่จะเป็นเจ้าภาพในส่วนถัดไป.

4.2 เสร็จครั้งเดียว I / O ช่องทาง

ในส่วนนี้ เราวิเคราะห์ประสิทธิภาพของกลยุทธ์ A และ B สำหรับ GPU เช่น GT200 และ C1060 ที่มีซิงเกิ้ล I / O ช่องทางในการเป็นเจ้าภาพ ในกรณีนี้มันเป็นไปไม่ได้ที่จะซ้อนทับกันการถ่ายโอนข้อมูลเข้าจากโฮสต์ให้ GPU ด้วยการโอนผลจาก GPU ในการเป็นเจ้าภาพ มะเดื่อ. 6 สรุปสัญกรณ์ที่ใช้ในการวิเคราะห์ของเวลาความสำเร็จของกลยุทธ์ A และ B ของเรา

สำหรับการวิเคราะห์ของเราเราทำให้สมมติฐานการลดความซับซ้อนหลายด้านล่าง:

1 เวลา TW, การเขียนหรือคัดลอกส่วนของการป้อนข้อมูลจากโฮสต์หน่วยความจำอุปกรณ์ที่เป็นเหมือนกันสำหรับทุกกลุ่ม.

2 เวลา TP, GPU จะใช้เวลาในการประมวลผลส่วนของการป้อนข้อมูลและสร้างกลุ่มส่งออกที่สอดคล้องกันจะเหมือนกันสำหรับทุกกลุ่ม.

3 เวลา TR เพื่อที่จะอ่านหรือคัดลอกส่วนของข้อมูลออกจากโฮสต์หน่วยความจำอุปกรณ์ที่เป็นเหมือนกันสำหรับทุกกลุ่ม.

4 เขียนประมวลผลและการอ่านสำหรับแต่ละกลุ่มจะเริ่มขึ้นในเวลาที่เร็วที่สุดสำหรับกลยุทธ์การเลือกและเสร็จสิ้น TW, TP, และหน่วย TR ต่อมาตามลำดับ.

5 เป็นไปได้ในการใช้กลยุทธ์ทุกลำดับญาติของกลุ่มเขียนประมวลผลและการอ่านจะเหมือนกันและเป็นส่วน 0 ตามด้วยส่วนที่ 1; ... และลงท้ายด้วยกลุ่ม 1 ที่ s คือจำนวนของกลุ่ม

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ในส่วนกระบวนการที่สองแต่ละกลุ่มบน GPU และที่สามอ่านผลสำหรับแต่ละกลุ่มกลับมาจากหน่วยความจำอุปกรณ์อะ . เพื่อให้แน่ใจว่ากระบวนการของกลุ่ม ไม่ได้เริ่มต้นก่อนการโอนที่ไม่ตรงกันส่วนข้อมูลจากโฮสต์ไปยังอุปกรณ์เสร็จสมบูรณ์ และยัง ว่า การอ่านผล ส่วนจะเริ่มหลังจากเสร็จสิ้นการประมวลผลของกลุ่มการให้แนวคิดของลำธาร ภายในลำธาร งานเสร็จแล้ว ในลำดับ โดยอ้างอิงจากรูปที่ 4 , จํานวนของกระแสเท่ากับจำนวนกลุ่มและงานใน ith กระแสจะเขียนส่วนผมหน่วยความจำอุปกรณ์ กระบวนการ ส่วนผม ส่วนผมอ่านผลจากหน่วยความจำอุปกรณ์ เพื่อให้ได้ผลลัพธ์ที่ถูกต้อง แต่ละกลุ่มส่งอุปกรณ์หน่วยความจำ จะต้องมี maxl อีก 1 ตัวต้องตรวจสอบตรงส่วนที่ข้ามเขตแดนไปสำหรับกลยุทธ์ที่จะทำงาน เราต้องมีอุปกรณ์หน่วยความจำเพียงพอที่จะรองรับข้อมูลที่ป้อนให้ทุกกลุ่ม รวมทั้งผลจากทุกกลุ่ม ภาพที่ 5 ให้เลือกกลยุทธ์ที่ต้องใช้เพียงเพียงพออุปกรณ์หน่วยความจำ 2 ส่วน ( สองอินพุตบัฟเฟอร์ in0 1 และสองเอาท์พุทบัฟเฟอร์และ out0 และ out1 ) ในกลยุทธ์นี้ GPU กระบวนการป้อนข้อมูลที่อยู่ใน in0 ( 1 ) และเขียนผลลัพธ์ที่ out0 ( out1 ) ในขณะที่ GPU จะใช้บัฟเฟอร์และ in0 out0 ( หรือ 1 และ out1 ) วิธีนี้โฮสต์ เขียนและอ่านจาก out1 1 ( หรือ in0 และ out0 ) เราสามารถ แน่นอน สองกลยุทธ์ A และ B จะได้รับกลยุทธ์ไฮบริดเราวิเคราะห์เวลาญาติประสิทธิภาพของทั้งสองโฮสต์กลยุทธ์ในส่วนถัดไป4.2 เวลาแล้วเสร็จหนึ่ง I / O ช่องทางในส่วนนี้เราจะวิเคราะห์ประสิทธิภาพของกลยุทธ์ A และ B เช่นจีที200 ต่อ และ c1060 ที่มีช่องทางเดียว I / O กับโฮสต์ ในกรณีนี้ , มันเป็นไปไม่ได้ที่จะถ่ายโอนข้อมูลซ้อนข้อมูลจากโฮสต์ไปยัง GPU กับการถ่ายโอนของผลลัพธ์จาก GPU เพื่อโฮสต์ ภาพที่ 6 summarises สัญลักษณ์ที่ใช้ในการวิเคราะห์ของเรา เวลาแล้วเสร็จของกลยุทธ์ A และ Bการวิเคราะห์ของเราเราให้สมมติฐานหลายระบบดังนี้1 . เวลา , TW , เขียนหรือคัดลอกส่วนของข้อมูลจากโฮสต์ไปยังอุปกรณ์ที่จำ เป็นเหมือนกันทั้งกลุ่ม2 . เวลา , TP , GPU ใช้กระบวนการกลุ่มของข้อมูล และสร้างผลผลิตของกลุ่มที่เหมือนกันสำหรับทุกกลุ่ม3 . เวลา , TR , อ่านหรือคัดลอกส่วนของการส่งออกข้อมูลจากโฮสต์ไปยังอุปกรณ์ที่จำ เป็นเหมือนกันทั้งกลุ่ม4 . เขียน , การประมวลผล และอ่านแต่ละส่วนเริ่มต้นในเวลาที่เร็วที่สุดสำหรับกลยุทธ์ที่เลือกและเสร็จสิ้น TW , TP , และหน่วย TR ต่อมาตามลำดับ5 . ทุกความเป็นไปได้กลยุทธ์ เพื่อญาติของส่วนประมวลผล และ อ่าน เขียน เป็นแบบเดียวกันและเป็นส่วน 0 ตามด้วย ส่วนที่ 1 . . . . . . . และลงท้ายด้วยส่วนที่ 1 ซึ่งเป็นหมายเลขของกลุ่ม

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.