NCCL源码阅读笔记
Published:
最近简单读了一下NVIDIA Collective Communications Library (NCCL, pronounced “Nickel”) 的源代码。现将初步的一些收获总结一下。 Read more
Published:
最近简单读了一下NVIDIA Collective Communications Library (NCCL, pronounced “Nickel”) 的源代码。现将初步的一些收获总结一下。 Read more
Published:
这一周主要是看论文,浏览了今年MLSys,ASPLOS以及去年SOSP和前年OSDI上与系统和机器学习相关的文章,重点阅读了一些与深度学习的性能提升相关的文章。受到之前包老师推荐阅读的文章(There’s plenty of room at the Top)的影响,我把这些文章分为三类,分别是Algorithm、Software和Hardware Architecture。由于我关注的这些会议都是偏系统的,所以Software层面的文章比较多。 Read more
Published:
最近调研了一些GPU性能模型相关的文章。这些模型关注通用场景下GPU kernel的运算性能,往往将GPU kernel看做一个黑盒子(而事实也确实如此),通过benchmark以及profiling tools给出的一些信息,来对kernel的运行时间进行预测。同时,在另一方面,为了能深入理解程序员对CUDA kernel的优化过程,我也阅读了NVIDIA提供的CUDA Best Practices Guide[1]。直接从程序员编写CUDA代码的角度来理解CUDA kernel可能存在的一些特性。现在将这两部分内容做一些整理和总结,从两个角度来对GPU kernel的性能进行分析。 Read more
Published:
Published:
Published: