支持原生FP8和PyTorch 2.5.0，摩尔线程发布Torch-MUSA v2.0.0

近日，摩尔线程正式发布Torch-MUSA v2.0.0版本，这是其面向PyTorch深度学习框架的MUSA扩展库的重要升级。新版本基于MUSA Compute Capability 3.1计算架构，支持原生FP8数据类型，支持PyTorch 2.5.0，并通过多项针对MUSA计算平台的性能优化，进一步提升了对AI模型和大规模数据处理的支持能力。

FP8原生支持，国产GPU的技术突破

作为本次升级的核心亮点，Torch-MUSA v2.0.0率先在国产GPU上实现了对FP8数据类型的完整支持。FP8是当前AI计算的一种前沿低精度格式，在支持原生FP8的GPU上，大语言模型（LLM）训练采用FP8混合精度可大幅提高GPU算力，显著降低显存占用。摩尔线程基于新一代 MUSA Compute Capability 3.1 计算架构的全功能 GPU 原生支持 FP8 计算，这为 Torch-MUSA v2.0.0 实现 FP8 矩阵乘法和分布式通信优化提供了坚实的基础。依托这一底层架构优势，Torch-MUSA v2.0.0 能够充分发挥 FP8 的计算效能，显著提升大语言模型训练和推理的效率。

三大关键优化，提升AI计算效率

Torch-MUSA v2.0.0在MUSA计算平台引入多项创新功能，进一步提升深度学习任务的执行效率：

▼ 新增虚拟内存管理支持：

MUSA虚拟内存管理技术能够有效缓解GPU内存碎片化问题，降低模型训练过程中的峰值内存占用，特别适用于FSDP、DeepSpeed和Megatron-LM等主流大模型训练框架。

▼ 新增MUSA Graph支持：

MUSA Graph技术将多个MUSA内核整合到一个图中，通过单次CPU调度大幅减少启动开销，提升计算效率，同时与CUDA Graph接口高效兼容。

▼ torch.compile增加Triton后端支持：

为torch.compile提供了Triton-MUSA后端支持，开发者可以直接使用PyTorch原生接口，获得更高效的性能表现。

支持PyTorch 2.5.0，生态兼容性更强

Torch-MUSA v2.0.0在完整支持PyTorch 2.2.0的基础上，新增了对PyTorch 2.5.0的支持，使开发者能够在基于MUSA Compute Capability 3.1计算架构的全功能GPU上，无缝运行新版本的PyTorch，享受更高效的AI计算体验。

Torch-MUSA已完全开源，开发者可通过访问GitHub获取源代码。摩尔线程鼓励开发者积极参与该项目的开发与改进，通过提交问题报告（issue）或代码修改申请（pull request）等方式，共同推动Torch-MUSA以及MUSA软件生态的持续进步与创新。

▼ Torch-MUSA开源地址：

https://github.com/MooreThreads/torch_musa

▼ 功能特性：

在Torch-MUSA中，用户只需指定torch.device("musa")，即可轻松将现有的PyTorch模型迁移到MUSA架构的GPU上运行，无需大幅修改代码。Torch-MUSA完全兼容PyTorch的自动微分和动态图机制，支持多种常用的神经网络模块及优化算法，并加速了关键深度学习算子的计算。此外，Torch-MUSA还支持多种PyTorch特性，包括DDP、JIT、FSDP、Profiler、Extension等。

▼ 版本迭代：

MUSA Graph技术将多个MUSA内核整合到一个图中，通过单次CPU调度大幅减少启动开销，提升计算效率，同时与CUDA Graph接口高效兼容。

v1.1.0：初次发布，支持PyTorch 2.0，提供基础张量操作和常见神经网络层的MUSA加速。
v1.2.0：进一步扩展算子支持，支持了完整功能的Profiler、MUSA Extension，并增加了Torch-MUSA专有特性如compare_tool、musa_converter，帮助用户更快的定位模型精度问题。
v1.3.0：支持PyTorch 2.2.0，性能进一步提升，支持FSDP，支持更复杂的模型和更大规模的数据处理。
v2.0.0：在MUSA Compute Capability 3.1计算架构上，原生支持FP8数据类型，支持PyTorch 2.5.0，新增MUSA虚拟内存管理技术优化大模型训练内存效率，通过集成Triton-MUSA后端显著提升torch.compile编译效率，支持MUSA Graph技术。

▼ 未来计划：

Torch-MUSA将继续跟进PyTorch的版本更新，计划支持更高版本的PyTorch。摩尔线程期待与广大开发者和研究人员共同完善Torch-MUSA的功能，持续优化性能，为基于MUSA架构的国产全功能GPU构建更强大的深度学习生态。

▼关于摩尔线程

摩尔线程成立于2020年10月，以全功能GPU为核心，致力于向全球提供加速计算的基础设施和一站式解决方案，为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业，为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

支持原生FP8和PyTorch 2.5.0，摩尔线程发布Torch-MUSA v2.0.0

最新资讯浏览更多

摩尔线程携手中国移动开启OISA生态共建，引领AI芯片互联技术新突破

支持OpenGL 4.4｜摩尔线程发布图形显卡驱动v310.120

摩尔线程“AI工厂”：以系统级创新定义新一代AI基础设施