Triton从入门到精通专栏_Triton中文社区

Triton从入门到精通

深度解析Triton、实战案例分享、性能优化秘籍、技术前沿探索！

5篇内容

面向 GPGPU 架构的 FlagTree 编译优化实践

编者注为了推动不同架构 AI 硬件系统的创新和规模化落地，智源研究院联合多家机构打造开源、统一的 AI 系统软件生态 FlagOS。系统软件栈 FlagOS 包括统一 AI 编译器 FlagTree、高性能通用 AI 算子库 FlagGems/FlagAttention、大模型训推一体框架 FlagScale 和统一通信库 FlagCX 等关键技术。目前，FlagTree 项目已于3月份对外开源

116 

1 

Triton中国社区 · 2025-06-16 10:39:22

Triton 入门实践 | Triton 调优实战

Triton 的 Python API 里除了 triton.jit 还有 triton.autotune，triton heuristics，triton.Config 等接口用于调优以生成性能更好的 kernel

1857 

3 

Triton中国社区 · 2024-12-17 17:33:37

Triton入门指南｜Triton DSL的特点与类型

Triton官方将其DSL语法表达体系称为 triton.language（https://triton-lang.org/main/python-api/triton.language.html），是一种依托于python环境的DSL，从该命名中的“language”中不难窥见，Triton团队想用自成一派的语言(language)对面向GPU的编程模型进行独特的表达，在Triton中，DSL由

1685 

Triton中国社区 · 2024-10-29 10:00:30

解锁FlagGems：Triton算子库的快速入门与贡献指南

FlagGems 使用 pre-commit（https://pre-commit.com）的 git hooks 格式化源代码，在调用 git commit 命令时进行代码静态检查，并且 pre-commit 测试也是 CI 的一部分，不通过检查的 Pull Request 不能被提交到 FlagGems。打开 FlagGems GitHub 首页（https://github.

1283 

Triton中国社区 · 2024-10-09 13:08:18

开启大模型时代新纪元：Triton的演变与影响力

而相比更底层的CUDA C甚至PTX、SASS等，Triton则隐藏了一些线程块粒度以下的调度功能，改由编译器自动接管共享存储、线程并行、合并访存、张量布局等细节，降低了并行编程模型的难度，同时提高了用户的生产效率。同时，厂商能够及时跟进Triton的更新，保持在硬件适配的前沿序列，也可以提出多芯片适用的共性技术创新，并贡献到Triton的开放社区中，继而成为Triton生态发展的引领者。与CUD

1242 

Triton中国社区 · 2024-09-24 09:05:38