MPI+OpenMP. The hybrid version is t

MPI+OpenMP. The hybrid version is the default build and
using the correct mapping can improve its performance. MPI
Advisor detected suboptimal mappings and, as shown in
Listing 3, recommended how to select a near-optimal mapping.
For HPCG with MVAPICH2, MPI Advisor detected
that task 0, which does the communication, was mapped to
socket one. Table 6 gives the performance of HPCG using
MVAPICH2 on 16 nodes of Stampede (256 cores). The default
mapping for the hybrid version is 2 MPI tasks and 8
OpenMP threads per node. MPI Advisor’s recommendation
is to: 1) map MPI tasks at the socket level instead of at the
core level, and 2) map task 0 to the socket closest to the
Infiniband card. In this case, the performance of the hybrid
version increased from 26.05 GFLOP/s to 38.85 GFLOP/s.
5.4 Infiniband Transport: RC and UD
To illustrate the benefits of MPI Advisor’s recommendation
on selecting the Infiniband transport method, we
used the SMG200010 benchmark, a parallel semi-coarsening
multi-grid solver. SMG2000 may be run with different node
counts depending on the size of the matrix being solved.
As shown in Listing 4, MPI Advisor recommends using UD
when the application uses Intel MPI and has 4,096 or more
MPI tasks. Implementing this recommendation, we were
able to improve the global performance by 29%. Figure 8
shows the execution times of the three phases of SMG2000
10https://asc.llnl.gov/computing resources/purple/archive/
benchmarks/smg/
Affinity - related program details :
- Number of MPI tasks launched : 8
- Number of MPI tasks running on each node : 2
- Number of cores on each node : 16
- Number of OpenMP threads per MPI task : 8
- Number of cores available to each MPI task : 1
- Rank 0: binding restricted to HCA socket
- HCA is located on socket : 1
- 8 OpenMP thread (s) is ( are ) on the same core .
Affinity - related suggestions :
- POSSIBLE OPTIMIZATION : The number of OpenMP
threads exceeds the number of cores
available to the MPI tasks .
- Consider reducing the number of parallel
threads launched or change the affinity
settings .
MVAPICH2 variables that can be used to modify
the mapping :
- MV2_CPU_BINDING_POLICY
- MV2_CPU_BINDING_LEVEL
- MV2_CPU_MAPPING
- Related documentation can be found in :
http :// mvapich . cse . ohio - state . edu / support /
Listing 3: MPI Advisor recommendation for improving
tasks-to-cores mapping for HPCG.
Default Mapping Recommended Mapping
26.05 38.85
Table 6: Performance (GFLOP/s) of HPCG Hybrid on 256
processes with different mapping.
for RC and UD. The setup phase is a communication-intensive
phase mainly composed of small point-to-point operations.
The mpiP profile shows that there are more than 1,060 million
MPI_Isend calls during this phase. The execution time
with RC is over a minute, while with UD it is approximately
24 seconds, yielding an improvement in the setup phase of
61%. There is no improvement in the performance of the
two other phases, mainly because they are both computation
intensive.
6. RELATED WORK
There are several tools and frameworks to help users achieve
better application performance by selecting a suitable set
of parameters to configure the MPI runtime environment.
However, because of the widespread use of multiple different
implementations of MPI, developing a tool that supports
many implementations is complex. The goal of the MPI
Advisor tool, which is introduced in this paper, is to enable
automated implementation of an important subset of
optimizations across as many different versions of MPI as
Infiniband transport selection details :
- Number of MPI Tasks launched : 4096
Infiniband transport suggestions :
- POSSIBLE OPTIMIZATION : 4K MPI tasks are being
employed
- Consider using UD instead of RC
Intel MPI variables that can be used to modify
the Infiniband transport :
- I_MPI_DAPL_UD_PROVIDER = ofa -v2 - mlx4_0 -1 u
- I_MPI_DAPL_UD = enable
- Related documentation can be found in :
https :// software . intel . com /en - us / articles /
intel - mpi - library - documentation
Listing 4: MPI Advisor recommendation for selecting
Infiniband transport method for SMG2000.
Struct Interface Setup Phase Solve Phase Total
RC 1.42 61.04 61.63 124.09
UD 1.44 23.63 62.71 87.78 Time (s)
10
20
30
40
50
60
70
Struct Interface Setup Phase Solve Phase
RC
UD
Transport Struct Setup Solve Total
Method Interface Phase Phase Runtime
RC 1.42 61.04 61.63 124.09
UD 1.44 23.63 62.71 87.78
Figure 8: Execution time (seconds) breakdown of SMG2000
running on 4,096 cores with Intel MPI and either the RC or
UD Infiniband transport method.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

MPI + OpenMP รุ่นไฮบริดจะเป็นรุ่นเริ่มต้น และใช้การแม็ปถูกต้องสามารถปรับปรุงประสิทธิภาพ MPIปรึกษาตรวจพบสภาพการแม็ปและ ดังแสดงในรายชื่อ 3 แนะนำวิธีการเลือกการแม็ปที่ใกล้สุดสำหรับ HPCG กับ MVAPICH2, MPI ปรึกษาตรวจพบงาน 0 ซึ่งไม่สื่อสาร ที่ถูกแมปไปซ็อกเก็ตหนึ่ง ตารางที่ 6 ทำให้ประสิทธิภาพของการใช้ HPCGMVAPICH2 บนโหน 16 ของหนี (256 แกน) ค่าเริ่มต้นการแม็ปสำหรับรุ่นไฮบริดคือ งาน MPI 2 และ 8เส้น OpenMP ต่อโหน คำแนะนำปรึกษา MPIคือ: 1) แผนงานพัฒนาในระดับซ็อกเก็ตแทนที่การระดับหลัก และ 2) แผนงาน 0 กับซ็อกเก็ตที่ใกล้เคียงกับการการ์ดมือส่วน ในกรณีนี้ ประสิทธิภาพของไฮบริรุ่นเพิ่มขึ้นจากเอส GFLOP 26.05 38.85 GFLOP/s5.4 ขนส่งมือส่วน: RC และ UDเพื่อแสดงให้เห็นประโยชน์ของ MPI ปรึกษาแนะนำการเลือกมือส่วนการขนส่งวิธี เราใช้มาตรฐาน SMG200010 คู่ขนานกึ่ง coarseningsolver หลายตาราง SMG2000 อาจทำงานกับโหนที่แตกต่างกันจำนวนครั้งขึ้นอยู่กับขนาดของเมทริกซ์ถูกแก้ไขดังที่ระบุไว้ในรายการ 4, MPI ปรึกษาแนะนำให้ใช้ยูดีเมื่อโปรแกรมประยุกต์ที่ใช้ Intel MPI และมี 4,096 หรือมากกว่างาน MPI การปฏิบัติตามคำแนะนำนี้ เราได้สามารถปรับปรุงประสิทธิภาพทั่วโลก 29% รูปที่ 8แสดงเวลาการดำเนินการของขั้นตอนที่สามของ SMG200010 https://asc.llnl.gov/computing ทรัพยากร/สีม่วง/เก็บถาวร /มาตรฐาน/smg /ความสัมพันธ์ - รายละเอียดของโปรแกรมที่เกี่ยวข้อง:-จำนวนงาน MPI ที่เปิดตัว: 8-จำนวนของ MPI งานเรียกใช้บนแต่ละโหน: 2-จำนวนแกนบนแต่ละโหน: 16-จำนวน OpenMP กระทู้ต่องาน MPI: 8-จำนวนของแกนพร้อมใช้งานแต่ละงาน MPI: 1-ลำดับที่ 0: ผูกซ็อกเก็ต HCA จำกัด-HCA อยู่บนซ็อกเก็ต: 1-เป็นเธรด OpenMP 8 (s) (อยู่) ในหลักเดียวกันความสัมพันธ์ - คำแนะนำที่เกี่ยวข้อง:-เพิ่มประสิทธิภาพเป็นไปได้: จำนวน OpenMPกระทู้เกินจำนวนแกนพร้อมใช้งาน MPI-พิจารณาลดจำนวนขนานกระทู้เปิดตัว หรือเปลี่ยนแปลงความสัมพันธ์การตั้งค่าตัวแปร MVAPICH2 ที่สามารถใช้เพื่อปรับเปลี่ยนการแมป:-MV2_CPU_BINDING_POLICY-MV2_CPU_BINDING_LEVEL-MV2_CPU_MAPPING-เอกสารที่เกี่ยวข้องสามารถพบได้ใน:http :// mvapich cse โอไฮโอ - รัฐ edu / สนับสนุน /รายการ 3: คำแนะนำปรึกษา MPI การปรับปรุงงานแกนการแม็ปสำหรับ HPCGการแมปเริ่มต้นแนะนำการแม็ป26.05 38.85ตารางที่ 6: ประสิทธิภาพ (GFLOP/s) ของไฮบริ HPCG ใน 256กระบวนการ ด้วยการแมปอื่นสำหรับ RC และ UD ขั้นตอนการติดตั้งเป็นการสื่อสารแบบเฟสส่วนใหญ่ประกอบด้วยการดำเนินงานแบบจุดต่อจุดเล็กค่า mpiP แสดงว่า มีมากกว่า 1,060 ล้านMPI_Isend เรียกช่วงเวลานี้ เวลาดำเนินการRC เป็นนาที ขณะที่ UD จึงเป็นประมาณวินาที ผลผลิตการปรับปรุงในขั้นตอนการตั้งค่าของ61% มีการปรับปรุงในการปฏิบัติการสองระยะอื่น ๆ ส่วนใหญ่เป็น เพราะพวกเขามีทั้งการคำนวณเร่งรัด6. ทำงานที่เกี่ยวข้องเครื่องมือและกรอบที่จะช่วยให้ผู้ใช้หลายประสิทธิภาพที่ดีกว่าโปรแกรม โดยเลือกชุดเหมาะสมพารามิเตอร์การกำหนดค่าสภาพแวดล้อมรันไทม์ MPIอย่างไรก็ตาม เนื่องจากการใช้อย่างแพร่หลายหลายแตกต่างกันปฏิบัติการของ MPI พัฒนาเครื่องมือที่สนับสนุนใช้งานจำนวนมากที่มีความซับซ้อน เป้าหมายของ MPIเครื่องมือที่ปรึกษา ที่แนะนำในเอกสารนี้ เป็นการ เปิดใช้งานดำเนินการอัตโนมัติของการย่อยที่สำคัญของเพิ่มประสิทธิภาพผ่าน MPI เป็นรุ่นแตกต่างกันมากมือส่วนรายละเอียดการเลือกขนส่ง:-จำนวนงาน MPI ที่เปิดตัว: 4096มือส่วนคำแนะนำในการขนส่ง:-เพิ่มประสิทธิภาพเป็นไปได้: การงาน MPI 4Kการจ้างงาน-พิจารณาใช้ UD แทน RCตัวแปร Intel MPI ที่สามารถใช้เพื่อปรับเปลี่ยนการขนส่งมือส่วน:-I_MPI_DAPL_UD_PROVIDER = ofa - v2 - mlx4_0 -1 u-I_MPI_DAPL_UD =เปิดใช้งาน-เอกสารที่เกี่ยวข้องสามารถพบได้ใน:https ://ซอฟต์แวร์ intel com /en - เรา / บทความ /intel - mpi -ห้องสมุด - เอกสารรายการ 4: คำแนะนำปรึกษา MPI สำหรับการเลือกวิธีการขนส่งมือส่วนสำหรับ SMG2000ขั้นตอนการติดตั้งอินเทอร์เฟซ Struct แก้รวมระยะRC 1.42 61.04 61.63 124.09ยูดีทรัคส์ 1.44 23.63 62.71 87.78 เวลา (s)10203040506070ขั้นตอนการติดตั้งอินเทอร์เฟซ Struct แก้เฟสRCยูดีทรัคส์ติดตั้งขนส่ง Struct แก้ทั้งหมดวิธีการอินเทอร์เฟซระยะระยะรันไทม์RC 1.42 61.04 61.63 124.09ยูดีทรัคส์ 1.44 23.63 62.71 87.78รูปที่ 8: แบ่งเวลาดำเนินการ (วินาที) SMG2000ใช้แกน 4096 ด้วย Intel MPI และ RC อย่างใดอย่างหนึ่ง หรือวิธีการขนส่งมือส่วน UD

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

MPI + OpenMP รุ่นไฮบริดเป็นค่าเริ่มต้นการสร้างและ
ใช้แผนที่ที่ถูกต้องสามารถปรับปรุงประสิทธิภาพการทำงาน MPI
ที่ปรึกษาตรวจพบการแมปด้อยและตามที่แสดงใน
รายการ 3 แนะนำวิธีการเลือกทำแผนที่ที่อยู่ใกล้กับที่ดีที่สุด.
สำหรับ HPCG กับ MVAPICH2, MPI ที่ปรึกษาตรวจพบ
ว่างาน 0 ซึ่งจะสื่อสารถูกแมปกับ
ซ็อกเก็ตหนึ่ง ตารางที่ 6 จะช่วยให้ประสิทธิภาพการทำงานของ HPCG โดยใช้
MVAPICH2 เมื่อวันที่ 16 โหนดแตกตื่น (256 แกน) เริ่มต้น
การทำแผนที่สำหรับรุ่นไฮบริดคือ 2 งาน MPI และ 8
OpenMP หัวข้อต่อโหนด คำแนะนำปรึกษา MPI ของ
คือ: 1) งานแผนที่ MPI ในระดับซ็อกเก็ตแทนใน
ระดับหลักและ 2) แผนที่งาน 0 ถึงซ็อกเก็ตใกล้เคียงกับ
บัตร Infiniband ในกรณีนี้การทำงานของไฮบริด
รุ่นที่เพิ่มขึ้นจาก 26.05 GFLOP / s เพื่อ 38.85 GFLOP / S.
5.4 Infiniband ขนส่ง: RC และ UD
เพื่อแสดงให้เห็นถึงประโยชน์ของการให้คำแนะนำ MPI ที่ปรึกษาฯ
ในการเลือกวิธีการขนส่ง Infiniband เรา
ใช้มาตรฐาน SMG200010, ขนานกึ่งหยาบ-
Solver หลายตาราง SMG2000 อาจจะทำงานกับโหนดที่แตกต่างกัน
นับขึ้นอยู่กับขนาดของเมทริกซ์ที่ได้รับการแก้ไข.
ดังแสดงในรายการ 4, MPI ที่ปรึกษาแนะนำให้ใช้ UD
เมื่อโปรแกรมประยุกต์ที่ใช้อินเทล MPI และมี 4,096 หรือมากกว่า
งาน MPI การดำเนินการตามคำแนะนำนี้เราก็
สามารถที่จะปรับปรุงประสิทธิภาพการทำงานทั่วโลก 29% รูปที่ 8
แสดงเวลาการดำเนินการของทั้งสามขั้นตอนของการ SMG2000
10https ทรัพยากร //asc.llnl.gov/computing / สีม่วง / เก็บ /
มาตรฐาน / SMG /
Affinity - กิจการที่เกี่ยวข้องรายละเอียดโปรแกรม:
- จำนวนของงานเปิดตัว MPI: 8
- จำนวน งาน MPI ทำงานในแต่ละโหนด: 2
- จำนวนของแกนในแต่ละโหนด: 16
- จำนวนหัวข้อ OpenMP ต่องาน MPI: 8
- จำนวนของแกนสามารถใช้ได้กับงานแต่ละงาน MPI: 1
- อันดับ 0 ผลผูกพัน จำกัด ให้ซ็อกเก็ต HCA
- HCA คือ ตั้งอยู่บนซ็อกเก็ต: 1
. - 8 เธรด OpenMP (s) (มี) บนแกนเดียวกัน
Affinity - เกี่ยวข้องกับข้อเสนอแนะ:
- การเพิ่มประสิทธิภาพเป็นไปได้: จำนวน OpenMP
หัวข้อเกินกว่าจำนวนของแกน
. สามารถใช้ได้กับงาน MPI
- พิจารณาการลด จำนวนขนาน
หัวข้อเปิดตัวหรือเปลี่ยนความสัมพันธ์
การตั้งค่า.
MVAPICH2 ตัวแปรที่สามารถนำมาใช้ในการปรับเปลี่ยน
การทำแผนที่:
- MV2_CPU_BINDING_POLICY
- MV2_CPU_BINDING_LEVEL
- MV2_CPU_MAPPING
- เอกสารที่เกี่ยวข้องสามารถพบได้ใน:
http: // mvapich CSE โอไฮโอ - รัฐ edu / Support /
รายชื่อ 3: คำแนะนำของ MPI ที่ปรึกษาสำหรับการปรับปรุง
การทำแผนที่งานการแกนสำหรับ HPCG.
เริ่มต้นการทำแผนที่แนะนำการทำแผนที่
26.05 38.85
ตารางที่ 6: ผลการดำเนินงาน (GFLOP / s) ของ HPCG ไฮบริด 256
. กระบวนการกับการทำแผนที่ที่แตกต่างกัน
สำหรับ RC และ UD . ขั้นตอนการติดตั้งการสื่อสารมาก
เฟสประกอบด้วยส่วนใหญ่ของการดำเนินงานแบบจุดต่อจุดเล็ก ๆ .
รายละเอียด mpiP แสดงให้เห็นว่ามีมากกว่า 1,060 ล้าน
MPI_Isend เรียกร้องในช่วงนี้ เวลาดำเนินการ
กับ RC มากกว่านาทีในขณะที่มี UD มันจะอยู่ที่ประมาณ
24 วินาทียอมปรับปรุงในขั้นตอนการติดตั้ง
61% มีการปรับปรุงประสิทธิภาพการทำงานของไม่เป็น
สองขั้นตอนอื่น ๆ ส่วนใหญ่เป็นเพราะพวกเขาเป็นทั้งการคำนวณ
อย่างเข้มข้น.
6 งานที่เกี่ยวข้อง
มีเครื่องมือต่างๆและกรอบที่จะช่วยให้ผู้ใช้บรรลุ
ประสิทธิภาพของโปรแกรมที่ดีขึ้นโดยการเลือกชุดที่เหมาะสม
ของพารามิเตอร์การกำหนดค่าสภาพแวดล้อมรันไทม์ MPI.
แต่เนื่องจากการใช้อย่างแพร่หลายของที่แตกต่างกันหลาย
การใช้งานของ MPI การพัฒนาเครื่องมือที่สนับสนุน
การใช้งานจำนวนมาก มีความซับซ้อน เป้าหมายของ MPI
เครื่องมือที่ปรึกษาซึ่งเป็นที่รู้จักในบทความนี้จะช่วยให้
การดำเนินงานโดยอัตโนมัติของระบบย่อยที่สำคัญของ
การเพิ่มประสิทธิภาพข้ามรุ่นต่าง ๆ เป็นจำนวนมากของ MPI เป็น
รายละเอียดตัวเลือกการขนส่ง Infiniband:
- จำนวน MPI งานเปิดตัว: 4096
Infiniband ข้อเสนอแนะการขนส่ง :
- การเพิ่มประสิทธิภาพเป็นไปได้: งาน 4K MPI ที่มีการ
จ้างงาน
- พิจารณาใช้ UD แทน RC
ตัวแปร Intel MPI ที่สามารถใช้ในการปรับเปลี่ยน
การขนส่ง Infiniband:
- I_MPI_DAPL_UD_PROVIDER = Ofa -v2 - mlx4_0 -1 U
- I_MPI_DAPL_UD = เปิดใช้งาน
- เอกสารที่เกี่ยวข้องสามารถ พบได้ใน:
https: // ซอฟแวร์ Intel COM / th - US / บทความ /
Intel - MPI - ห้องสมุด - เอกสาร
รายการ 4: MPI คำแนะนำปรึกษาในการเลือก
. วิธีการขนส่ง Infiniband สำหรับ SMG2000
โครงสร้างการเชื่อมต่อการติดตั้งเฟสแก้เฟสรวม
RC 1.42 61.04 61.63 124.09
UD 1.44 23.63 62.71 87.78 เวลา (s)
10
20
วันที่ 30
40
50
60
70
โครงสร้างการเชื่อมต่อการติดตั้งเฟสแก้เฟส
RC
UD
ตั้งค่าขนส่งโครงสร้างการแก้ปัญหารวม
วิธีการเชื่อมต่อเฟสเฟส Runtime
RC 1.42 61.04 61.63 124.09
UD 1.44 23.63 62.71 87.78
รูปที่ 8: เวลาดำเนินการ (วินาที) รายละเอียดของ SMG2000
ทำงานบน 4,096 แกน กับ Intel MPI และทั้ง RC หรือ
UD Infiniband วิธีการขนส่ง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

หน้า + openmp . รุ่นไฮบริดจะเริ่มต้นสร้างและการใช้แผนที่ที่ถูกต้องสามารถปรับปรุงประสิทธิภาพของ MPIตรวจสอบและที่ปรึกษา suboptimal แมปดังแสดงในรายการที่ 3 แนะนำวิธีการเลือกใกล้แผนที่เหมาะสมสำหรับ hpcg กับ mvapich2 , MPI ที่ปรึกษาตรวจพบที่งาน 0 ซึ่งจะถูกแมปไปยังการสื่อสารซ็อกเก็ต 1 ตารางที่ 6 ให้ประสิทธิภาพของ hpcg โดยใช้mvapich2 16 โหนดแตกตื่น ( 256 แกน ) ปริยายแผนที่สำหรับรุ่นไฮบริด เป็น 2 ล้าน และ 8 งานopenmp กระทู้ต่อโหนด แนะนำการท่องเที่ยวของอาจารย์ที่ปรึกษาคือ 1 ) ด้านการท่องเที่ยวงานในระดับแทนของซ็อกเก็ตที่ระดับกลาง และ 2 ) ด้านงาน 0 ซ็อกเก็ตที่ใกล้ที่สุดกำเนิดนามบัตร ในกรณีนี้การทำงานของไฮบริดรุ่นที่เพิ่มขึ้นจาก 2 gflop / S 38.85 gflop / S5.4 กำเนิดและการขนส่ง : RC มือสองแสดงให้เห็นถึงประโยชน์ของการแนะนำของอาจารย์ที่ปรึกษาสำหรับกำเนิดในการเลือกวิธีการขนส่ง เราใช้ smg200010 รอยหยาบกร้านแบบกึ่งแก้ตารางหลาย smg2000 อาจจะใช้กับโหนดต่าง ๆนับขึ้นอยู่กับขนาดของเมทริกซ์ที่ถูกแก้ไขที่แสดงในรายการ 4 , MPI ที่ปรึกษาแนะนำให้ใช้ UDเมื่อโปรแกรมประยุกต์ที่ใช้ Intel PII และ 4096 หรือเพิ่มเติมงานหน้า . การใช้คำแนะนำนี้เราสามารถปรับปรุงประสิทธิภาพของทั่วโลก โดยร้อยละ 29 รูปที่ 8แสดงการทำงานของสามขั้นตอนของ smg2000 ครั้ง10https://asc.llnl.gov/computing ทรัพยากร / สีม่วง / ถาวร /มาตรฐาน / SMG /ความสัมพันธ์ที่เกี่ยวข้องกับรายละเอียดของโปรแกรม :- จำนวนของงานเปิดตัว 8 ล้าน :- จำนวนหน้างานวิ่ง ในแต่ละโหนด : 2- จำนวนแกนบนแต่ละโหนด 16- จำนวน openmp หัวข้อต่อสำหรับงาน : 8- จำนวนของแกนของแต่ละหน้างาน 1- อันดับ 0 : ผูกพันต้อง HCA ซ็อกเก็ต- HCA ตั้งอยู่บนซ็อกเก็ต 1- 8 openmp ด้าย ( s ) ( อยู่ ) ในหลักเดียวกันความสัมพันธ์ที่เกี่ยวข้องข้อเสนอแนะ :- สามารถเพิ่มประสิทธิภาพ : จำนวน openmpกระทู้ที่เกินกว่าจำนวนของแกนใช้กับหน้างาน- พิจารณาลดจำนวนขนานกระทู้เปิดตัว หรือเปลี่ยนความสัมพันธ์การตั้งค่าmvapich2 ตัวแปรที่สามารถใช้ในการปรับเปลี่ยนแผนที่ :- mv2_cpu_binding_policy- mv2_cpu_binding_level- mv2_cpu_mapping- เอกสารที่เกี่ยวข้องสามารถพบได้ใน :http : / / mvapich . CSE . โอไฮโอ - รัฐ การศึกษา / สนับสนุน /รายการที่ 3 : แนวทางการพัฒนาเศรษฐกิจที่ปรึกษางานแกนแผนที่ hpcg .แนะนำแผนที่แผนที่เริ่มต้น2 38.85ตารางที่ 6 : สมรรถนะ ( gflop / s ) hpcg ไฮบริดใน 256 คนกระบวนการกับแผนที่ที่แตกต่างกันสำหรับ RC และ UD . ขั้นตอนการตั้งค่าเป็นการสื่อสารแบบเข้มข้นขั้นตอนการดำเนินงานประกอบด้วยส่วนใหญ่ของจุดเล็ก ๆการ mpip ประวัติ พบว่า มีมากกว่า 800 ล้านบาทmpi_isend โทรในระหว่างขั้นตอนนี้ การทำงานเวลากับ RC มากกว่านาทีในขณะที่มี UD มันประมาณ24 วินาที ที่มีการปรับปรุงในขั้นตอนการติดตั้งของ61 เปอร์เซ็นต์ ไม่มีการปรับปรุงในการปฏิบัติงานของขั้นตอนอื่น ๆสอง ส่วนใหญ่เป็นเพราะพวกเขามีทั้งการคำนวณที่เข้มข้น6 . งานที่เกี่ยวข้องมีหลายเครื่องมือและกรอบเพื่อช่วยให้ผู้ใช้สามารถบรรลุใบสมัครงานที่ดีโดยการเลือกชุดเหมาะสมพารามิเตอร์การปรับแต่งสำหรับสภาพแวดล้อมรันไทม์ .อย่างไรก็ตาม เนื่องจากการใช้อย่างแพร่หลายของหลายที่แตกต่างกันการดำเนินงานของอุตสาหกรรม การพัฒนาเครื่องมือที่สนับสนุนหลายระบบซับซ้อน เป้าหมายของการท่องเที่ยวเครื่องมือที่ปรึกษาที่แนะนำในบทความนี้จะช่วยให้โดยอัตโนมัติการใช้งานของบางส่วนของสำคัญการเพิ่มประสิทธิภาพผ่านหลายรุ่นที่แตกต่างกันของประเทศเป็นรายละเอียด : กำเนิดการขนส่ง- จำนวนของงานเปิดตัว : 4096 MPIการขนส่งกำเนิด : ข้อเสนอแนะ- สามารถเพิ่มประสิทธิภาพ : 4K สำหรับงานถูกจ้าง- ควรใช้ UD แทน RCข้อมูลสำหรับตัวแปรที่สามารถใช้ในการปรับเปลี่ยนที่กำเนิดในการขนส่ง :- i_mpi_dapl_ud_provider = OFA - V2 - mlx4_0 - 1 U- i_mpi_dapl_ud = เปิด- เอกสารที่เกี่ยวข้องสามารถพบได้ใน :https : / / ซอฟต์แวร์ ข้อมูล บทความดอทคอม / en / / - เราอินเทล - PCI - ห้องสมุด - เอกสารรายการที่ 4 : MPI ที่ปรึกษาแนะนำสำหรับการเลือกวิธีการขนส่งให้กำเนิด smg2000 .ขั้นตอนการตั้งค่าซอฟต์แวร์อินเตอร์เฟซแก้เฟสทั้งหมดRC 1.42 61.04 61.63 124.09UD 1.44 23.63 62.71 87.78 เวลา ( s )10203040506070ขั้นตอนการตั้งค่าซอฟต์แวร์อินเตอร์เฟซแก้เฟสRCมือสองการติดตั้งซอฟต์แวร์การขนส่งแก้ทั้งหมดวิธีติดต่อเฟสเฟสไทม์RC 1.42 61.04 61.63 124.09UD 1.44 23.63 62.71 87.78รูปที่ 8 : การสลายของเวลา ( วินาที ) smg2000วิ่งบน 4096 แกนกับ Intel PCI และทั้ง RC หรือUD กำเนิดวิธีการขนส่ง .

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.