KUAE Training Suite

摩尔线程 AI 训练套件 (KUAE Training Suite) 是专为满足生产级 AI 训练需求而设计的全功能产品套件，旨在为开发者提供强大的工具和框架，以加速和优化 AI 模型的训练过程。

开箱即用

配备完整的训练框架和训练辅助工具，实现快速部署和使用

高效实践

提供主流模型在摩尔线程全功能 GPU 上运行的高效训练方案

性能领先

大模型训练 MFU 达到业界领先，显著提升训练效率

超大规模

支持高达十万卡规模的训练过程，满足大规模计算需求

摩尔线程 AI 训练套件

摩尔线程 AI 训练套件包含了训练框架、AI 框架和训练辅助工具，覆盖大模型预训练和后训练全过程。

分布式训练框架与工具

通过计算和通信重叠、训练空泡压缩、引入 FP8 等技术大幅提升性能；借助自动并行策略，智能寻找最优并行方案。内置训练辅助工具在训练前进行性能预测，在训练过程中实时监控并自动处理异常，确保训练过程平稳高效。

后训练框架

支持 LlamaFactory 框架和 TRL 等强化学习库，可以运用 DPO、PPO、GRPO 等强化学习方法，和 SFT、LoRA 等微调方法，助力大模型后训练高效完成。

训练辅助工具

摩尔线程提供一套完整的大模型训练辅助工具，助力用户在摩尔线程全功能 GPU 上实现卓越的训练效果。在训练前，用户可借助 PerfModel 工具精准预测训练的理论性能，并获得一套高效的并行策略；训练过程中，用户可通过分布式 Profiler / Rewind 工具分析并处理异常训练情况；训练完成后，用户可通过 Quality Model 评估模型能力。

Torch-MUSA

基于 PyTorch 扩展的 Python 包，用户可以通过 Torch-MUSA 充分发挥摩尔线程全功能 GPU 的强大性能。Torch-MUSA 实现了对 CUDA 的兼容，大幅降低了适配新算子的工作量，简化了开发流程。Torch-MUSA API 在格式上与 PyTorch 一致，让熟悉 PyTorch 的用户可以平滑迁移到 Torch-MUSA。Torch-MUSA 还提供了一组工具包，助力用户轻松进行 CUDA 移植、构建 MUSA 扩展和调试。

KUAE Training Suite

开箱即用

高效实践

性能领先

超大规模

摩尔线程 AI 训练套件

分布式训练框架与工具

后训练框架

训练辅助工具

Torch-MUSA

相关产品

MTT KUAE

摩尔线程智算中心全栈解决方案

MCCX D800 X1

AI 大模型训推一体机

更多资源

技术文档

Torch-MUSA Github

支持的大模型