nccl cudaLaunch kernel
我们需要弄清楚,其中的变量 __thread struct ncclComm* ncclGroupCommHead = nullptr;这次希望看一下,ncclAllReduce()中的 ncclSum 是如何转换成 对应的 cuda Kernel来被执行到的。是如何关联到fn上的。
·
这次希望看一下,ncclAllReduce( )中的 ncclSum 是如何转换成 对应的 cuda Kernel来被执行到的。
其中,cudaLaunchKernel的参数的数据流如下图所示:
我们需要弄清楚,其中的变量 __thread struct ncclComm* ncclGroupCommHead = nullptr;
是如何关联到fn上的。

欢迎来到由智源人工智能研究院发起的Triton中文社区,这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂,为推动人工智能技术的普及与深化应用贡献力量。
更多推荐
所有评论(0)