MPI+OpenMP. The hybrid version is the default build and
using the correct mapping can improve its performance. MPI
Advisor detected suboptimal mappings and, as shown in
Listing 3, recommended how to select a near-optimal mapping.
For HPCG with MVAPICH2, MPI Advisor detected
that task 0, which does the communication, was mapped to
socket one. Table 6 gives the performance of HPCG using
MVAPICH2 on 16 nodes of Stampede (256 cores). The default
mapping for the hybrid version is 2 MPI tasks and 8
OpenMP threads per node. MPI Advisor’s recommendation
is to: 1) map MPI tasks at the socket level instead of at the
core level, and 2) map task 0 to the socket closest to the
Infiniband card. In this case, the performance of the hybrid
version increased from 26.05 GFLOP/s to 38.85 GFLOP/s.
5.4 Infiniband Transport: RC and UD
To illustrate the benefits of MPI Advisor’s recommendation
on selecting the Infiniband transport method, we
used the SMG200010 benchmark, a parallel semi-coarsening
multi-grid solver. SMG2000 may be run with different node
counts depending on the size of the matrix being solved.
As shown in Listing 4, MPI Advisor recommends using UD
when the application uses Intel MPI and has 4,096 or more
MPI tasks. Implementing this recommendation, we were
able to improve the global performance by 29%. Figure 8
shows the execution times of the three phases of SMG2000
10https://asc.llnl.gov/computing resources/purple/archive/
benchmarks/smg/
Affinity - related program details :
- Number of MPI tasks launched : 8
- Number of MPI tasks running on each node : 2
- Number of cores on each node : 16
- Number of OpenMP threads per MPI task : 8
- Number of cores available to each MPI task : 1
- Rank 0: binding restricted to HCA socket
- HCA is located on socket : 1
- 8 OpenMP thread (s) is ( are ) on the same core .
Affinity - related suggestions :
- POSSIBLE OPTIMIZATION : The number of OpenMP
threads exceeds the number of cores
available to the MPI tasks .
- Consider reducing the number of parallel
threads launched or change the affinity
settings .
MVAPICH2 variables that can be used to modify
the mapping :
- MV2_CPU_BINDING_POLICY
- MV2_CPU_BINDING_LEVEL
- MV2_CPU_MAPPING
- Related documentation can be found in :
http :// mvapich . cse . ohio - state . edu / support /
Listing 3: MPI Advisor recommendation for improving
tasks-to-cores mapping for HPCG.
Default Mapping Recommended Mapping
26.05 38.85
Table 6: Performance (GFLOP/s) of HPCG Hybrid on 256
processes with different mapping.
for RC and UD. The setup phase is a communication-intensive
phase mainly composed of small point-to-point operations.
The mpiP profile shows that there are more than 1,060 million
MPI_Isend calls during this phase. The execution time
with RC is over a minute, while with UD it is approximately
24 seconds, yielding an improvement in the setup phase of
61%. There is no improvement in the performance of the
two other phases, mainly because they are both computation
intensive.
6. RELATED WORK
There are several tools and frameworks to help users achieve
better application performance by selecting a suitable set
of parameters to configure the MPI runtime environment.
However, because of the widespread use of multiple different
implementations of MPI, developing a tool that supports
many implementations is complex. The goal of the MPI
Advisor tool, which is introduced in this paper, is to enable
automated implementation of an important subset of
optimizations across as many different versions of MPI as
Infiniband transport selection details :
- Number of MPI Tasks launched : 4096
Infiniband transport suggestions :
- POSSIBLE OPTIMIZATION : 4K MPI tasks are being
employed
- Consider using UD instead of RC
Intel MPI variables that can be used to modify
the Infiniband transport :
- I_MPI_DAPL_UD_PROVIDER = ofa -v2 - mlx4_0 -1 u
- I_MPI_DAPL_UD = enable
- Related documentation can be found in :
https :// software . intel . com /en - us / articles /
intel - mpi - library - documentation
Listing 4: MPI Advisor recommendation for selecting
Infiniband transport method for SMG2000.
Struct Interface Setup Phase Solve Phase Total
RC 1.42 61.04 61.63 124.09
UD 1.44 23.63 62.71 87.78 Time (s)
10
20
30
40
50
60
70
Struct Interface Setup Phase Solve Phase
RC
UD
Transport Struct Setup Solve Total
Method Interface Phase Phase Runtime
RC 1.42 61.04 61.63 124.09
UD 1.44 23.63 62.71 87.78
Figure 8: Execution time (seconds) breakdown of SMG2000
running on 4,096 cores with Intel MPI and either the RC or
UD Infiniband transport method.
MPI + OpenMP รุ่นไฮบริดเป็นค่าเริ่มต้นการสร้างและ
ใช้แผนที่ที่ถูกต้องสามารถปรับปรุงประสิทธิภาพการทำงาน MPI
ที่ปรึกษาตรวจพบการแมปด้อยและตามที่แสดงใน
รายการ 3 แนะนำวิธีการเลือกทำแผนที่ที่อยู่ใกล้กับที่ดีที่สุด.
สำหรับ HPCG กับ MVAPICH2, MPI ที่ปรึกษาตรวจพบ
ว่างาน 0 ซึ่งจะสื่อสารถูกแมปกับ
ซ็อกเก็ตหนึ่ง ตารางที่ 6 จะช่วยให้ประสิทธิภาพการทำงานของ HPCG โดยใช้
MVAPICH2 เมื่อวันที่ 16 โหนดแตกตื่น (256 แกน) เริ่มต้น
การทำแผนที่สำหรับรุ่นไฮบริดคือ 2 งาน MPI และ 8
OpenMP หัวข้อต่อโหนด คำแนะนำปรึกษา MPI ของ
คือ: 1) งานแผนที่ MPI ในระดับซ็อกเก็ตแทนใน
ระดับหลักและ 2) แผนที่งาน 0 ถึงซ็อกเก็ตใกล้เคียงกับ
บัตร Infiniband ในกรณีนี้การทำงานของไฮบริด
รุ่นที่เพิ่มขึ้นจาก 26.05 GFLOP / s เพื่อ 38.85 GFLOP / S.
5.4 Infiniband ขนส่ง: RC และ UD
เพื่อแสดงให้เห็นถึงประโยชน์ของการให้คำแนะนำ MPI ที่ปรึกษาฯ
ในการเลือกวิธีการขนส่ง Infiniband เรา
ใช้มาตรฐาน SMG200010, ขนานกึ่งหยาบ-
Solver หลายตาราง SMG2000 อาจจะทำงานกับโหนดที่แตกต่างกัน
นับขึ้นอยู่กับขนาดของเมทริกซ์ที่ได้รับการแก้ไข.
ดังแสดงในรายการ 4, MPI ที่ปรึกษาแนะนำให้ใช้ UD
เมื่อโปรแกรมประยุกต์ที่ใช้อินเทล MPI และมี 4,096 หรือมากกว่า
งาน MPI การดำเนินการตามคำแนะนำนี้เราก็
สามารถที่จะปรับปรุงประสิทธิภาพการทำงานทั่วโลก 29% รูปที่ 8
แสดงเวลาการดำเนินการของทั้งสามขั้นตอนของการ SMG2000
10https ทรัพยากร //asc.llnl.gov/computing / สีม่วง / เก็บ /
มาตรฐาน / SMG /
Affinity - กิจการที่เกี่ยวข้องรายละเอียดโปรแกรม:
- จำนวนของงานเปิดตัว MPI: 8
- จำนวน งาน MPI ทำงานในแต่ละโหนด: 2
- จำนวนของแกนในแต่ละโหนด: 16
- จำนวนหัวข้อ OpenMP ต่องาน MPI: 8
- จำนวนของแกนสามารถใช้ได้กับงานแต่ละงาน MPI: 1
- อันดับ 0 ผลผูกพัน จำกัด ให้ซ็อกเก็ต HCA
- HCA คือ ตั้งอยู่บนซ็อกเก็ต: 1
. - 8 เธรด OpenMP (s) (มี) บนแกนเดียวกัน
Affinity - เกี่ยวข้องกับข้อเสนอแนะ:
- การเพิ่มประสิทธิภาพเป็นไปได้: จำนวน OpenMP
หัวข้อเกินกว่าจำนวนของแกน
. สามารถใช้ได้กับงาน MPI
- พิจารณาการลด จำนวนขนาน
หัวข้อเปิดตัวหรือเปลี่ยนความสัมพันธ์
การตั้งค่า.
MVAPICH2 ตัวแปรที่สามารถนำมาใช้ในการปรับเปลี่ยน
การทำแผนที่:
- MV2_CPU_BINDING_POLICY
- MV2_CPU_BINDING_LEVEL
- MV2_CPU_MAPPING
- เอกสารที่เกี่ยวข้องสามารถพบได้ใน:
http: // mvapich CSE โอไฮโอ - รัฐ edu / Support /
รายชื่อ 3: คำแนะนำของ MPI ที่ปรึกษาสำหรับการปรับปรุง
การทำแผนที่งานการแกนสำหรับ HPCG.
เริ่มต้นการทำแผนที่แนะนำการทำแผนที่
26.05 38.85
ตารางที่ 6: ผลการดำเนินงาน (GFLOP / s) ของ HPCG ไฮบริด 256
. กระบวนการกับการทำแผนที่ที่แตกต่างกัน
สำหรับ RC และ UD . ขั้นตอนการติดตั้งการสื่อสารมาก
เฟสประกอบด้วยส่วนใหญ่ของการดำเนินงานแบบจุดต่อจุดเล็ก ๆ .
รายละเอียด mpiP แสดงให้เห็นว่ามีมากกว่า 1,060 ล้าน
MPI_Isend เรียกร้องในช่วงนี้ เวลาดำเนินการ
กับ RC มากกว่านาทีในขณะที่มี UD มันจะอยู่ที่ประมาณ
24 วินาทียอมปรับปรุงในขั้นตอนการติดตั้ง
61% มีการปรับปรุงประสิทธิภาพการทำงานของไม่เป็น
สองขั้นตอนอื่น ๆ ส่วนใหญ่เป็นเพราะพวกเขาเป็นทั้งการคำนวณ
อย่างเข้มข้น.
6 งานที่เกี่ยวข้อง
มีเครื่องมือต่างๆและกรอบที่จะช่วยให้ผู้ใช้บรรลุ
ประสิทธิภาพของโปรแกรมที่ดีขึ้นโดยการเลือกชุดที่เหมาะสม
ของพารามิเตอร์การกำหนดค่าสภาพแวดล้อมรันไทม์ MPI.
แต่เนื่องจากการใช้อย่างแพร่หลายของที่แตกต่างกันหลาย
การใช้งานของ MPI การพัฒนาเครื่องมือที่สนับสนุน
การใช้งานจำนวนมาก มีความซับซ้อน เป้าหมายของ MPI
เครื่องมือที่ปรึกษาซึ่งเป็นที่รู้จักในบทความนี้จะช่วยให้
การดำเนินงานโดยอัตโนมัติของระบบย่อยที่สำคัญของ
การเพิ่มประสิทธิภาพข้ามรุ่นต่าง ๆ เป็นจำนวนมากของ MPI เป็น
รายละเอียดตัวเลือกการขนส่ง Infiniband:
- จำนวน MPI งานเปิดตัว: 4096
Infiniband ข้อเสนอแนะการขนส่ง :
- การเพิ่มประสิทธิภาพเป็นไปได้: งาน 4K MPI ที่มีการ
จ้างงาน
- พิจารณาใช้ UD แทน RC
ตัวแปร Intel MPI ที่สามารถใช้ในการปรับเปลี่ยน
การขนส่ง Infiniband:
- I_MPI_DAPL_UD_PROVIDER = Ofa -v2 - mlx4_0 -1 U
- I_MPI_DAPL_UD = เปิดใช้งาน
- เอกสารที่เกี่ยวข้องสามารถ พบได้ใน:
https: // ซอฟแวร์ Intel COM / th - US / บทความ /
Intel - MPI - ห้องสมุด - เอกสาร
รายการ 4: MPI คำแนะนำปรึกษาในการเลือก
. วิธีการขนส่ง Infiniband สำหรับ SMG2000
โครงสร้างการเชื่อมต่อการติดตั้งเฟสแก้เฟสรวม
RC 1.42 61.04 61.63 124.09
UD 1.44 23.63 62.71 87.78 เวลา (s)
10
20
วันที่ 30
40
50
60
70
โครงสร้างการเชื่อมต่อการติดตั้งเฟสแก้เฟส
RC
UD
ตั้งค่าขนส่งโครงสร้างการแก้ปัญหารวม
วิธีการเชื่อมต่อเฟสเฟส Runtime
RC 1.42 61.04 61.63 124.09
UD 1.44 23.63 62.71 87.78
รูปที่ 8: เวลาดำเนินการ (วินาที) รายละเอียดของ SMG2000
ทำงานบน 4,096 แกน กับ Intel MPI และทั้ง RC หรือ
UD Infiniband วิธีการขนส่ง
การแปล กรุณารอสักครู่..