nccl cudaLaunch kernel

我们需要弄清楚，其中的变量 __thread struct ncclComm* ncclGroupCommHead = nullptr;这次希望看一下，ncclAllReduce()中的 ncclSum 是如何转换成对应的 cuda Kernel来被执行到的。是如何关联到fn上的。

Eloudy

1121人浏览 · 2024-01-05 18:54:08

Eloudy · 2024-01-05 18:54:08 发布

这次希望看一下，ncclAllReduce( )中的 ncclSum 是如何转换成对应的 cuda Kernel来被执行到的。

其中，cudaLaunchKernel的参数的数据流如下图所示：

我们需要弄清楚，其中的变量 __thread struct ncclComm* ncclGroupCommHead = nullptr;

是如何关联到fn上的。

Triton中文社区

欢迎来到由智源人工智能研究院发起的Triton中文社区，这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂，为推动人工智能技术的普及与深化应用贡献力量。

更多推荐

Stable Diffusion 针对50系显卡CUDA 12.9 的cuda error解决办法

笔者新买了RTX 5080，自然是要整AI 绘画的，但新的CUDA版本一直报错，终于在今天解决，于是写一篇文章来分享一下。

Triton中文社区

jetson agx orin 刷机、cuda、pytorch配置指南【亲测有效】

2.刷机时需准备ubuntu系统，可以是虚拟机，注意安装SDK Manager刷机时，JetPack版本要选对，JetPack6.0的对应ubuntu22，cuda12版本，对应pytorch支持2.0以上的，如果你要使用pytorch2.0以下版本（pytorch1.12），则需要安装JetPack5.0，对应ubuntu20，cuda11版本，更推荐这个版本。刷机完成后，需要进行cuda环境配