RLLM

开源训练 & 微调 › 微调框架⭐ 5.7k↑+3

LLM 强化学习开源框架，致力于降低强化学习应用于大语言模型的门槛，支持分布式训练、编码 Agent、搜索 Agent 等多种场景，是 verl 生态的重要组成部分。

🎯适用场景：LLM强化学习与奖励模型训练，适合研究型团队探索Agent自主学习能力

#强化学习#LLM训练#RL#分布式训练#Agent

📥 收录于 2026/6/9

访问工具 📖 官方文档

📊 仓库数据

Stars5,727

Forks593

语言Python

协议Apache-2.0

更新2026/7/24

📈 Stars 变化 ↑11 小时 +3· 统计区间 7/24 12:26 → 7/24 23:22（11 小时）

✅ 优点

•专为LLM强化学习设计的开源方案
•支持分布式训练扩展
•verl生态集成度高
•Apache 2.0许可可商用

⚠️ 限制

•需要强化学习领域知识
•大规模训练需要较多GPU资源

🔗 相关工具

Gymnasium

开源⭐ 12k↑+2

github.com/Farama-Foundation/Gymnasium

单代理强化学习环境 API 标准库（原 Gym 的继任者），提供丰富参考环境，适用于 RL 训练和研究

🎯强化学习算法开发和测试的标准环境接口

#强化学习#gym#api-standard#rl-environment

ART

开源⭐ 11k↑+1

github.com/OpenPipe/ART

OpenPipe 开源的 Agent 强化学习训练框架，基于 GRPO 算法对多步 Agent 进行实战训练，支持 Qwen3.6、GPT-OSS、Llama 等主流模型

🎯对 AI Agent 进行强化学习微调，提升复杂任务的执行成功率

#强化学习#GRPO#Agent 训练#Qwen+1

LLaMA Factory

开源⭐ 73k↑+21

github.com/hiyouga/LLaMA-Factory

100+ 大模型高效微调工具，71K+ stars。支持 LoRA、QLoRA、DPO、PPO 等 10+ 种微调方法，提供 WebUI 一键式微调界面，兼容 LLaMA、Mistral、Qwen、Baichuan 等主流模型。ACL 2024 论文收录

🎯大模型微调与训练

LlamaFactory

开源⭐ 73k↑+21

github.com/hiyouga/LlamaFactory

统一高效微调 100+ 大模型，71K+ stars。支持 100+ LLM 和 VLM 的高效微调框架（ACL 2024 论文收录）

🎯大模型微调与训练

#智能体#ai#deepseek#微调+1

Unsloth

开源⭐ 69k↑+22

github.com/unslothai/unsloth

LLM 微调 Web UI 和优化工具，62,269+ stars。提供 2 倍训练速度、70% 显存占用的 LLM 微调方案，支持 Llama、Mistral、Qwen 等主流模型的 LoRA/QLoRA 微调

🎯大模型微调与训练

#LLM微调#LoRA#显存优化#Web UI

nanoChat

开源⭐ 57k↑+18

github.com/karpathy/nanochat

Karpathy 用 100 美元能买到的最佳 ChatGPT 体验，从数据到训练到推理的完整实现

🎯大模型微调与训练

#大语言模型#chat#训练#karpathy