活动回顾｜Triton&vLLM WorkShop

智源人工智能研究院于10 月 17 日下午，在位于北京市海淀区丰智东路13号朗丽兹西山花园酒店的GOSIM开源盛会上，成功举行了Triton&vLLM联合WorkShop。

Triton中国社区

1109人浏览 · 2024-10-24 09:57:34

Triton中国社区 · 2024-10-24 09:57:34 发布

Triton 以其在易用性及在模型优化、硬件加速上的优势，吸引了全球开发者的广泛关注。在中国，尽管 Triton 的潜力巨大，但围绕 Triton 的开发者社区和相关技术交流仍处于发展阶段，亟需一个平台来促进知识共享和技术交流。智源研究院致力于打破这一局面，通过拓展 Triton 的交流的广度和深度，与国内外的开发者和芯片制造商携手合作，共同推进 Triton 技术在中国的快速发展。我们的目标是让 Triton 的先进技术成果能够惠及更广泛的群体，推动整个 AI 领域的技术进步和应用创新。

正是在这样的背景下，智源人工智能研究院于 10 月 17 日下午，在位于北京市海淀区丰智东路13号朗丽兹西山花园酒店的GOSIM开源盛会上，成功举行了Triton&vLLM联合WorkShop。这场盛会不仅吸引了上百位 Triton 技术爱好者的积极参与，更通过线上直播吸引了近万名观众的热情参与，共同见证了 Triton 技术的精彩分享和深入探讨。

活动亮点：

技术先锋联合：Triton和vLLM的结合，两大技术先锋的强强联合，将带来前所未有的技术碰撞和思想交流。
深度学习前沿：技术专家们将带来大模型推理和性能优化的最新研究成果，以及Triton和vLLM如何推动大模型推理的创新。
实战经验分享：行业领袖将展示Triton和vLLM在实际应用中的案例，提供深度的实战见解。

精彩议题分享

议题一：《开场致辞》

林咏华北京智源人工智能研究院副院长兼总工程师

本次活动由林咏华老师进行开场致辞与大家共同探讨开源现状，对于AI大模型、跨芯片生态系统等前沿技术的支持，是驱动整个行业向前发展的核心力量。全球各地的创新者们都在努力打破常规，积极采用开源和跨平台的策略，以促进技术的创新和应用。林老师也提到，除了芯片企业，算法和应用开发者在推动开源软件的实际应用和普及中扮演着不可或缺的角色。他们的工作是连接理论与实践、创新与市场的桥梁。

议题二：《规约类算子的 triton kernel 优化模式》

陈飞宇北京智源人工智能研究院研发工程师

陈飞宇老师深入探讨了如何使用 Triton 编写性能超越 PyTorch 的 Softmax 算子。分析了 Softmax 算子的定义、不同维度的reduce策略，并展示了多种优化技巧，包括循环 online softmax normalizer 和 split softmax 以及在外层 softmax 的情况下更好地进行任务划分。这些方法显著提升了算子性能，为深度学习中的 Softmax 运算提供了高效的实现途径。

议题三：《vLLM: 简单、高效、易用的大模型推理框架》

游凯超清华大学/加州大学伯克利分校博士生/访问学生

游凯超老师主要介绍了一款简单、高效、易用的开源大型语言模型（LLM）推理框架，分享该项目的目标、发展历史、社区现状、支持的API以及近一年的RoadMap中的模型支持、硬件支持、模型性能提升、特色功能，最后，为大家带来完整的社区贡献、参与流程以及社区成员介绍。

议题四：《基于vLLM的多模态大模型压缩与推理：FlagScale的应用实践与技术探讨》

赵英利/吕梦思北京智源人工智能研究院研发工程师

赵英利和吕梦思老师本次分享介绍了FlagScale，这是一个构建在开源项目上的全面LLM工具包，旨在为LM开发者提供最大灵活性。FlagScale支持超过10个模型的全预训练，涵盖从十亿参数到万亿参数模型，并在不同架构的芯片上实现异构训练。分享还探讨了多模态大模型Emu3的压缩与推理优化实践，包括张量并行、多步调度、Classifier-Free Guidance技术，以及Emu3的压缩策略和未来工作方向，如Ring Attention、Speculative Decoding、W4A8量化和KV缓存压缩。此外，还讨论了量化策略对模型效果的影响，以及如何通过自动化的超参数优化（HPO）实现SmoothQuant。

议题五：《Triton中国社区开发者贡献计划》

田国伟北京智源人工智能研究院开源运营

田国伟老师本次公布了Triton中国社区的贡献者招募的计划，Triton中国社区现阶段正在招募算子开发贡献者，旨在推动技术发展、创新引领、社区建设和合作促进。贡献者可以是代码或非代码领域的专家，参与算子开发、文档编写、社区活动等。加入社区的成员将有机会接触前沿技术，参与项目实践，与专家交流，并提升个人能力。福利包括社区认证、个人影响力提升、工作/实习机会以及周边奖励。

议题六：《vLLM在Moonshot的应用实践与未来展望》

许欣然月之暗面工程副总裁

许欣然老师为大家带来月之暗面（Moonshot AI）产品Kimi智能助手相关的介绍，其公司在大模型关键技术RoPE、文生图关键技术Group Normalization、高效轻量化网络ShuffleNet等领域有突出贡献。在vLLM集群方面，Moonshot AI提出了LLM Gateway和Mooncake分离式架构，以解决长文本处理和动态批处理的挑战，实现了效率提升和用户体验优化。此外还计划开源Trace Dataset和Mooncake Store，推动KVCache池化接口层标准。

议题七：《基于摩尔线程全功能GPU的Triton编译器实现》

吴庆摩尔线程GPU计算软件开发总监

吴庆老师本次分享详细介绍了摩尔线程基于全功能GPU软硬件架构进行的Triton编译器实现及其在智源FlagGems上的适配。内容包括MUSA软硬件架构、软件生态建设，以及如何通过MUSIFY工具加速CUDA生态迁移。此外，还探讨了MUSA在AI训练、推理、物理仿真和HPC应用中的性能表现，以及与清华大学合作的冷冻电镜三维重构应用案例。最后，介绍了MUSA Triton编译器的设计和实现，以及对FlagGems算子库的适配，展示了摩尔线程GPU及MUSA软件生态在多样化计算场景下的应用潜力。

议题八：《vLLM遇见Qwen:阿里巴巴通义实验室的优化与贡献》

何涛阿里巴巴通义实验室技术专家

何涛老师分享了大规模语言模型Qwen在vLLM上的部署挑战、对vLLM的贡献以及未来发展机遇。他们面临的挑战包括在异构设备上构建高性能的LLM推理服务，同时保持严格的服务水平目标。贡献包括Attention机制的替代方案、量化技术、运行时开销降低、KV缓存内存管理、推测性解码、MoE专家并行处理和长上下文支持。此外，还探讨了vLLM引擎优化、利用稀疏性提升性能、MoE模型的吞吐量优化以及模型推理即服务的前景。

现场互动

本次活动中，8位嘉宾的分享内容干货满满，提供了非常宝贵的学习材料。引发了现场观众热烈的讨论，充分体现了开发者们对学习Triton&vLLM的热情。此次活动不仅为与会者提供了学习和交流的平台，也为国内Triton&vLLM生态的成熟奠定了基础。

展位互动

在此次大会上，Triton中国社区展位人气火爆，吸引了众多与会者前来咨询和交流。展位展示了Triton的最新技术进展。参与者们热情互动，共同探讨Triton在AI领域的未来发展，展现了开源社区的活力与创新精神。

活动的成功举办，展示了Triton&vLLM的广泛应用和强大潜力，也为未来更多的Triton&vLLM爱好者提供了宝贵的经验和启示。期待Triton&vLLM在国内的发展能够更加蓬勃，为技术创新带来更多可能。

视频回放：

https://live.csdn.net/room/csdnnews/DoHfn6Ok

PPT下载：

链接: https://pan.baidu.com/s/1Zs3IBP7rfjdUdYv2GciepA?pwd=0mv8

提取码: 0mv8

扫码加入Triton 技术交流群

Triton中文社区

欢迎来到由智源人工智能研究院发起的Triton中文社区，这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂，为推动人工智能技术的普及与深化应用贡献力量。

更多推荐

linux上安装cuda11.8

Triton中文社区

jetson agx orin 刷机、cuda、pytorch配置指南【亲测有效】

2.刷机时需准备ubuntu系统，可以是虚拟机，注意安装SDK Manager刷机时，JetPack版本要选对，JetPack6.0的对应ubuntu22，cuda12版本，对应pytorch支持2.0以上的，如果你要使用pytorch2.0以下版本（pytorch1.12），则需要安装JetPack5.0，对应ubuntu20，cuda11版本，更推荐这个版本。刷机完成后，需要进行cuda环境配