ColossalAI

大模型训练加速框架,41,373+ stars。统一的大模型训练框架,提供高效的并行策略和内存优化,支持从预训练到微调的全流程

🎯适用场景:大模型微调与训练

#大模型#训练加速#并行策略#内存优化

📥 收录于 2026/4/20

📊 仓库数据

Stars41,409
Forks4,505
语言Python
上线2021/10/29
更新2026/6/28

📈 Stars 变化 6 小时 -1· 统计区间 6/28 18:12 → 6/29 00:15(6 小时)

优点

  • 统一的大模型训练方案
  • 多种并行策略灵活组合
  • 预训练模型和示例丰富
  • 文档教程完善

⚠️ 限制

  • 学习曲线较陡
  • 社区规模不如 DeepSpeed
  • 部分功能仍在快速迭代中

🔗 相关工具

DeepSpeed

开源43k+1

github.com/microsoft/DeepSpeed

深度学习训练优化库,42,156+ stars。微软开发的开源深度学习优化库,提供 ZeRO 内存优化、3D 并行等核心技术,大幅降低大模型训练成本

🎯大模型微调与训练

#深度学习#训练优化#ZeRO#分布式训练
语言Python
🍴 Forks4,868
🔄 更新2026/6/28
📥 收录2026/4/20

DeepSpeed

开源43k+1

github.com/deepspeedai/DeepSpeed

DeepSpeed 是微软开发的深度学习优化库,使分布式训练和推理变得简单高效。支持 ZeRO 优化、模型并行、流水线并行、混合精度训练、推理加速等功能,可在消费级 GPU 上训练万亿参数模型。42K+ stars。

🎯大规模深度学习模型分布式训练与推理加速

#Billion-parameters#压缩#Data-parallelism#深度学习
语言Python
🍴 Forks4,868
🔄 更新2026/6/28
📥 收录2026/6/3

LLaMA Factory

开源73k+24

github.com/hiyouga/LLaMA-Factory

100+ 大模型高效微调工具,71K+ stars。支持 LoRA、QLoRA、DPO、PPO 等 10+ 种微调方法,提供 WebUI 一键式微调界面,兼容 LLaMA、Mistral、Qwen、Baichuan 等主流模型。ACL 2024 论文收录

🎯大模型微调与训练

#大语言模型#微调#LoRA#WebUI
语言Python
🍴 Forks8,883
📅 上线2023/4/1
🔄 更新2026/6/29
📥 收录2026/4/21

LlamaFactory

开源73k+24

github.com/hiyouga/LlamaFactory

统一高效微调 100+ 大模型,71K+ stars。支持 100+ LLM 和 VLM 的高效微调框架(ACL 2024 论文收录)

🎯大模型微调与训练

#智能体#ai#deepseek#微调+1
语言Python
🍴 Forks8,883
📅 上线2023/5/28
🔄 更新2026/6/29
📥 收录2026/5/20

Unsloth

开源68k+15

github.com/unslothai/unsloth

LLM 微调 Web UI 和优化工具,62,269+ stars。提供 2 倍训练速度、70% 显存占用的 LLM 微调方案,支持 Llama、Mistral、Qwen 等主流模型的 LoRA/QLoRA 微调

🎯大模型微调与训练

#LLM微调#LoRA#显存优化#Web UI
语言Python
🍴 Forks6,068
📅 上线2023/11/30
🔄 更新2026/6/28
📥 收录2026/4/20

nanoGPT

开源60k+18

github.com/karpathy/nanoGPT

Andrej Karpathy 的最小化 GPT 训练实现,仅约 300 行代码即可从头训练 GPT 模型,是学习 LLM 训练原理的最佳入门项目

🎯学习 LLM 训练原理、GPT 模型教学、深度学习课程

#GPT#LLM 训练#教学#PyTorch+1
语言Python
🍴 Forks10,376
🔄 更新2026/6/29
📥 收录2026/5/18