LLM 强化学习开源框架,致力于降低强化学习应用于大语言模型的门槛,支持分布式训练、编码 Agent、搜索 Agent 等多种场景,是 verl 生态的重要组成部分。

🎯适用场景:LLM强化学习与奖励模型训练,适合研究型团队探索Agent自主学习能力

#强化学习#LLM训练#RL#分布式训练#Agent

📥 收录于 2026/6/9

📊 仓库数据

Stars5,604
Forks575
语言Python
协议Apache-2.0
更新2026/6/10

优点

  • 专为LLM强化学习设计的开源方案
  • 支持分布式训练扩展
  • verl生态集成度高
  • Apache 2.0许可可商用

⚠️ 限制

  • 需要强化学习领域知识
  • 大规模训练需要较多GPU资源

🔗 相关工具

CleanRL

开源9.9k

github.com/vwxyzjn/cleanrl

高质量单文件深度强化学习算法实现,涵盖 PPO、DQN、SAC、TD3 等主流算法,代码简洁适合学习和研究对比

🎯强化学习算法学习、教学和新算法的研究对比基线

#强化学习#PPO#DQN#SAC+1
语言Python
🍴 Forks1,098
🔄 更新2026/6/9
📥 收录2026/6/6

Oumi

开源9.3k

github.com/oumi-ai/oumi

端到端 LLM/VLM 训练平台,9.2K+ stars。支持 SFT/DPO/评估/部署全流程,兼容 Gemma、Qwen、DeepSeek-R1 等最新模型。提供简洁 API 和预置配方,大幅降低 LLM 微调门槛

🎯大模型微调与训练

#LLM 训练#SFT#DPO#模型部署
语言Python
🍴 Forks778
📅 上线2024/5/8
🔄 更新2026/6/9
📥 收录2026/5/21

Safe RLHF

开源1.6k

github.com/PKU-Alignment/safe-rlhf

PKU-Alignment 出品的安全强化学习人类反馈框架,1.6K+ stars。通过安全 RLHF 实现约束价值对齐,是 AI 安全对齐领域的前沿研究

🎯大模型安全对齐训练

#AI 安全#对齐#rlhf#safety+1
语言Python
🍴 Forks133
🔄 更新2026/6/8
📥 收录2026/5/29

LLaMA Factory

开源72k-1

github.com/hiyouga/LLaMA-Factory

100+ 大模型高效微调工具,71K+ stars。支持 LoRA、QLoRA、DPO、PPO 等 10+ 种微调方法,提供 WebUI 一键式微调界面,兼容 LLaMA、Mistral、Qwen、Baichuan 等主流模型。ACL 2024 论文收录

🎯大模型微调与训练

#大语言模型#微调#LoRA#WebUI
语言Python
🍴 Forks8,811
📅 上线2023/4/1
🔄 更新2026/6/10
📥 收录2026/4/21

OpenRLHF

开源9.6k+1

github.com/OpenRLHF/OpenRLHF

可扩展的 Agentic RL 训练框架,9.6K+ stars。基于 Ray 构建,支持 PPO/DAPO/REINFORCE++ 等算法,集成 vLLM 加速推理

🎯LLM 对齐训练(RLHF/DPO)、Agent 强化学习

#强化学习#RLHF#PPO#LLM 训练+1
语言Python
🍴 Forks965
📅 上线2023/7/30
🔄 更新2026/6/10
📥 收录2026/6/5

DeepSpeed

开源42k-1

github.com/microsoft/DeepSpeed

深度学习训练优化库,42,156+ stars。微软开发的开源深度学习优化库,提供 ZeRO 内存优化、3D 并行等核心技术,大幅降低大模型训练成本

🎯大模型微调与训练

#深度学习#训练优化#ZeRO#分布式训练
语言Python
🍴 Forks4,856
🔄 更新2026/6/10
📥 收录2026/4/20