CleanRL

开源训练 & 微调 › 对齐与 RLHF⭐ 10k↑+8

高质量单文件深度强化学习算法实现，涵盖 PPO、DQN、SAC、TD3 等主流算法，代码简洁适合学习和研究对比

🎯适用场景：强化学习算法学习、教学和新算法的研究对比基线

#强化学习#PPO#DQN#SAC#研究友好

📥 收录于 2026/6/6

访问工具

📊 仓库数据

Stars10,134

Forks1,135

语言Python

更新2026/7/20

📈 Stars 变化 ↑2 天 +8· 统计区间 7/18 23:22 → 7/20 20:02（2 天）

✅ 优点

•单文件实现极易理解和修改
•覆盖主流 RL 算法
•集成 WandB 实验追踪

⚠️ 限制

•非生产级框架，大规模应用需自行扩展
•缺少分布式训练支持

🔗 相关工具

TRL

开源⭐ 19k↑+18

github.com/huggingface/trl

Hugging Face 维护的 Transformer Reinforcement Learning 库，覆盖 SFT、DPO、PPO 等对齐训练流程，常用于 LLM 后训练实验。

🎯做大模型 SFT、DPO、PPO 或偏好对齐训练实验。

#RLHF#DPO#SFT#后训练+1

语言Python

🍴 Forks2,853

🔄 更新2026/7/20

📥 收录2026/7/12

Oumi

开源⭐ 9.4k↑+9

github.com/oumi-ai/oumi

端到端 LLM/VLM 训练平台，9.2K+ stars。支持 SFT/DPO/评估/部署全流程，兼容 Gemma、Qwen、DeepSeek-R1 等最新模型。提供简洁 API 和预置配方，大幅降低 LLM 微调门槛

🎯大模型微调与训练

#LLM 训练#SFT#DPO#模型部署

语言Python

🍴 Forks784

📅 上线2024/5/8

🔄 更新2026/7/20

📥 收录2026/5/21

Safe RLHF

开源⭐ 1.6k

github.com/PKU-Alignment/safe-rlhf

PKU-Alignment 出品的安全强化学习人类反馈框架，1.6K+ stars。通过安全 RLHF 实现约束价值对齐，是 AI 安全对齐领域的前沿研究

🎯大模型安全对齐训练

#AI 安全#对齐#rlhf#safety+1

语言Python

🍴 Forks133

🔄 更新2026/7/17

📥 收录2026/5/29

LLaMA Factory

开源⭐ 73k↑+30

github.com/hiyouga/LLaMA-Factory

100+ 大模型高效微调工具，71K+ stars。支持 LoRA、QLoRA、DPO、PPO 等 10+ 种微调方法，提供 WebUI 一键式微调界面，兼容 LLaMA、Mistral、Qwen、Baichuan 等主流模型。ACL 2024 论文收录

🎯大模型微调与训练

#大语言模型#微调#LoRA#WebUI

语言Python

🍴 Forks8,961

📅 上线2023/4/1

🔄 更新2026/7/20

📥 收录2026/4/21

Gymnasium

开源⭐ 12k↑+12

github.com/Farama-Foundation/Gymnasium

单代理强化学习环境 API 标准库（原 Gym 的继任者），提供丰富参考环境，适用于 RL 训练和研究

🎯强化学习算法开发和测试的标准环境接口

#强化学习#gym#api-standard#rl-environment

语言Python

🍴 Forks1,393

🔄 更新2026/7/20

📥 收录2026/6/7

ART

开源⭐ 10k↑+6

github.com/OpenPipe/ART

OpenPipe 开源的 Agent 强化学习训练框架，基于 GRPO 算法对多步 Agent 进行实战训练，支持 Qwen3.6、GPT-OSS、Llama 等主流模型

🎯对 AI Agent 进行强化学习微调，提升复杂任务的执行成功率

#强化学习#GRPO#Agent 训练#Qwen+1

语言Python

🍴 Forks962

🔄 更新2026/7/20

📥 收录2026/6/6

← 浏览全部 1331 个工具