使用MPI测量延迟
延迟的测量一般采用Ping-Pong的方法,即A发送一则消息给B,B收到后立刻进行回复,最终由A计算得出消息一次来回所用的时间,也就是A与B延迟的2倍,本文也是基于这种方法测量不同消息大小时点对点的延迟,参考了osu-micro-benchmarks-5.8中的测量程序,因为osu-micro-benchmarks的不好配置在SimGrid虚拟环境下就仿照写了测量程序。
延迟的测量一般采用Ping-Pong的方法,即A发送一则消息给B,B收到后立刻进行回复,最终由A计算得出消息一次来回所用的时间,也就是A与B延迟的2倍,本文也是基于这种方法测量不同消息大小时点对点的延迟,参考了osu-micro-benchmarks-5.8中的测量程序,因为osu-micro-benchmarks的不好配置在SimGrid虚拟环境下就仿照写了测量程序。
UCC(Unified Collective Communication)是UCF(Unified Communication Framework)中一个集合通信库,提供了丰富的功能与API,这篇文章是其中集合通信算法选择的部分,理解还不是很透彻,先占一个坑,以后比较全面的了解UCC后再用几篇博客详细介绍一下。
ucc每种集合通信操作提供的可选择算法比较有限,所有可选择的算法可以通过命令ucc_info -A
查看
作者团队的两篇文章都是对Allreduce操作的优化,但优化的角度不同,一个是针对配备了高吞吐量RDMA系统下大消息的Allreduce进行优化,另一篇则是对大规模Allreduce操作使用数据分片、多领导技术进行优化,二篇文章的优化内容一定程度上能够互补。
作者:Xi Luo
会议:2020 IEEE International Conference on Cluster Computing (CLUSTER)
doi:10.1109/CLUSTER49012.2020.00013
IEEE Xplore URL:https://ieeexplore.ieee.org/abstract/document/9229573
会议最佳论文之一
一个分层自调优的集合通信框架,实现在Open MPI的集合通信框架中(/ompi/mca/coll/han)。HAN为每个硬件级别选择合适的同种集合通信模块作为子模块,将子模块的集合操作视为任务,并组织这些任务来高效执行分层的集合操作。
Dragonfly Topology是由John Kim等人于2008年提出的一种网络拓扑结构(Technology-Driven, Highly-Scalable Dragonfly Topology),被广泛地应用在高性能计算网结构上。
一份比较详细的参考ppt:From Hypercubes to Dragonflies a short history of interconnect
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
1 | $ hexo new "My New Post" |
More info: Writing
1 | $ hexo server |
More info: Server
1 | $ hexo generate |
More info: Generating
1 | $ hexo deploy |
More info: Deployment