Oumi

开源训练 & 微调 › 对齐与 RLHF⭐ 9.3k↑+1

端到端 LLM/VLM 训练平台，9.2K+ stars。支持 SFT/DPO/评估/部署全流程，兼容 Gemma、Qwen、DeepSeek-R1 等最新模型。提供简洁 API 和预置配方，大幅降低 LLM 微调门槛

🎯适用场景：大模型微调与训练

#LLM 训练#SFT#DPO#模型部署

📥 收录于 2026/5/21

访问工具 📖 官方文档

📊 仓库数据

Stars9,338

Forks783

语言Python

上线2024/5/8

更新2026/7/10

📈 Stars 变化 ↑12 小时 +1· 统计区间 7/10 12:08 → 7/11 00:11（12 小时）

✅ 优点

•训练评估部署一站式
•兼容最新开源模型
•API 设计简洁
•预置训练配方

⚠️ 限制

•相对较新项目
•大规模训练仍需调优
•文档仍在完善中

🔗 相关工具

CleanRL

开源⭐ 10k↑+4

github.com/vwxyzjn/cleanrl

高质量单文件深度强化学习算法实现，涵盖 PPO、DQN、SAC、TD3 等主流算法，代码简洁适合学习和研究对比

🎯强化学习算法学习、教学和新算法的研究对比基线

#强化学习#PPO#DQN#SAC+1

语言Python

🍴 Forks1,124

🔄 更新2026/7/10

📥 收录2026/6/6

Safe RLHF

开源⭐ 1.6k↑+1

github.com/PKU-Alignment/safe-rlhf

PKU-Alignment 出品的安全强化学习人类反馈框架，1.6K+ stars。通过安全 RLHF 实现约束价值对齐，是 AI 安全对齐领域的前沿研究

🎯大模型安全对齐训练

#AI 安全#对齐#rlhf#safety+1

语言Python

🍴 Forks133

🔄 更新2026/7/10

📥 收录2026/5/29

LLaMA Factory

开源⭐ 73k↑+19

github.com/hiyouga/LLaMA-Factory

100+ 大模型高效微调工具，71K+ stars。支持 LoRA、QLoRA、DPO、PPO 等 10+ 种微调方法，提供 WebUI 一键式微调界面，兼容 LLaMA、Mistral、Qwen、Baichuan 等主流模型。ACL 2024 论文收录

🎯大模型微调与训练

#大语言模型#微调#LoRA#WebUI

语言Python

🍴 Forks8,936

📅 上线2023/4/1

🔄 更新2026/7/10

📥 收录2026/4/21

Axolotl

开源⭐ 12k↑+4

github.com/axolotl-ai-cloud/axolotl

LLM 微调训练工具，12K+ stars。支持 LoRA/QLoRA/全参数微调、DPO/ORPO 等对齐方法，兼容 Llama、Mistral、Qwen 等主流模型。提供 YAML 配置驱动的训练流程，是 LLM 微调的事实标准工具之一

🎯大模型微调与训练

#LLM 微调#LoRA#DPO#训练工具

语言Python

🍴 Forks1,389

📅 上线2023/4/14

🔄 更新2026/7/10

📥 收录2026/5/21

BISHENG

开源⭐ 12k

github.com/dataelement/bisheng

企业级 LLM DevOps 平台，11K+ stars。集成 RAG、Agent、模型统一管理、SFT 微调、数据集管理和评估，提供从模型训练到应用部署的完整工作流

🎯企业 AI 应用开发与管理、RAG 系统搭建

#LLM DevOps#RAG#智能体#企业级+1

语言TypeScript

🍴 Forks1,880

📅 上线2023/8/28

🔄 更新2026/7/10

📥 收录2026/6/5

LlamaFactory

开源⭐ 73k↑+19

github.com/hiyouga/LlamaFactory

统一高效微调 100+ 大模型，71K+ stars。支持 100+ LLM 和 VLM 的高效微调框架（ACL 2024 论文收录）

🎯大模型微调与训练

#智能体#ai#deepseek#微调+1

语言Python

🍴 Forks8,936

📅 上线2023/5/28

🔄 更新2026/7/10

📥 收录2026/5/20

← 浏览全部 1267 个工具