ART

开源训练 & 微调 › 微调框架⭐ 10k↑+6

OpenPipe 开源的 Agent 强化学习训练框架，基于 GRPO 算法对多步 Agent 进行实战训练，支持 Qwen3.6、GPT-OSS、Llama 等主流模型

🎯适用场景：对 AI Agent 进行强化学习微调，提升复杂任务的执行成功率

#强化学习#GRPO#Agent 训练#Qwen#LoRA

📥 收录于 2026/6/6

访问工具

📊 仓库数据

Stars10,495

Forks962

语言Python

更新2026/7/20

📈 Stars 变化 ↑2 天 +6· 统计区间 7/18 23:22 → 7/20 20:02（2 天）

✅ 优点

•GRPO 算法降低训练资源需求
•支持主流开源模型
•面向真实任务场景

⚠️ 限制

•需要 GPU 资源
•RL 调参经验要求高
•仍在早期阶段

🔗 相关工具

LLaMA Factory

开源⭐ 73k↑+30

github.com/hiyouga/LLaMA-Factory

100+ 大模型高效微调工具，71K+ stars。支持 LoRA、QLoRA、DPO、PPO 等 10+ 种微调方法，提供 WebUI 一键式微调界面，兼容 LLaMA、Mistral、Qwen、Baichuan 等主流模型。ACL 2024 论文收录

🎯大模型微调与训练

#大语言模型#微调#LoRA#WebUI

语言Python

🍴 Forks8,961

📅 上线2023/4/1

🔄 更新2026/7/20

📥 收录2026/4/21

Unsloth

开源⭐ 68k↑+80

github.com/unslothai/unsloth

LLM 微调 Web UI 和优化工具，62,269+ stars。提供 2 倍训练速度、70% 显存占用的 LLM 微调方案，支持 Llama、Mistral、Qwen 等主流模型的 LoRA/QLoRA 微调

🎯大模型微调与训练

#LLM微调#LoRA#显存优化#Web UI

语言Python

🍴 Forks6,158

📅 上线2023/11/30

🔄 更新2026/7/20

📥 收录2026/4/20

Axolotl

开源⭐ 12k↑+13

github.com/axolotl-ai-cloud/axolotl

LLM 微调训练工具，12K+ stars。支持 LoRA/QLoRA/全参数微调、DPO/ORPO 等对齐方法，兼容 Llama、Mistral、Qwen 等主流模型。提供 YAML 配置驱动的训练流程，是 LLM 微调的事实标准工具之一

🎯大模型微调与训练

#LLM 微调#LoRA#DPO#训练工具

语言Python

🍴 Forks1,392

📅 上线2023/4/14

🔄 更新2026/7/20

📥 收录2026/5/21

Gymnasium

开源⭐ 12k↑+12

github.com/Farama-Foundation/Gymnasium

单代理强化学习环境 API 标准库（原 Gym 的继任者），提供丰富参考环境，适用于 RL 训练和研究

🎯强化学习算法开发和测试的标准环境接口

#强化学习#gym#api-standard#rl-environment

语言Python

🍴 Forks1,393

🔄 更新2026/7/20

📥 收录2026/6/7

RLLM

开源⭐ 5.7k↑+1

github.com/rllm-org/rllm

LLM 强化学习开源框架，致力于降低强化学习应用于大语言模型的门槛，支持分布式训练、编码 Agent、搜索 Agent 等多种场景，是 verl 生态的重要组成部分。

🎯LLM强化学习与奖励模型训练，适合研究型团队探索Agent自主学习能力

#强化学习#LLM训练#RL#分布式训练+1

语言Python

🍴 Forks589

🔄 更新2026/7/20

📥 收录2026/6/9

LlamaFactory

开源⭐ 73k↑+30

github.com/hiyouga/LlamaFactory

统一高效微调 100+ 大模型，71K+ stars。支持 100+ LLM 和 VLM 的高效微调框架（ACL 2024 论文收录）

🎯大模型微调与训练

#智能体#ai#deepseek#微调+1

语言Python

🍴 Forks8,961

📅 上线2023/5/28

🔄 更新2026/7/20

📥 收录2026/5/20

← 浏览全部 1331 个工具