这次希望看一下,ncclAllReduce(  )中的 ncclSum 是如何转换成 对应的 cuda Kernel来被执行到的。

其中,cudaLaunchKernel的参数的数据流如下图所示:

我们需要弄清楚,其中的变量 __thread struct ncclComm* ncclGroupCommHead = nullptr;

是如何关联到fn上的。

Logo

欢迎来到由智源人工智能研究院发起的Triton中文社区,这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂,为推动人工智能技术的普及与深化应用贡献力量。

更多推荐