ART

开源训练 & 微调9.9k

OpenPipe 开源的 Agent 强化学习训练框架,基于 GRPO 算法对多步 Agent 进行实战训练,支持 Qwen3.6、GPT-OSS、Llama 等主流模型

🎯适用场景:对 AI Agent 进行强化学习微调,提升复杂任务的执行成功率

#强化学习#GRPO#Agent 训练#Qwen#LoRA

📥 收录于 2026/6/6

📊 仓库数据

Stars9,895
语言Python

优点

  • GRPO 算法降低训练资源需求
  • 支持主流开源模型
  • 面向真实任务场景

⚠️ 限制

  • 需要 GPU 资源
  • RL 调参经验要求高
  • 仍在早期阶段

🔗 相关工具

LLaMA Factory

开源72k↑+5

github.com/hiyouga/LLaMA-Factory

100+ 大模型高效微调工具,71K+ stars。支持 LoRA、QLoRA、DPO、PPO 等 10+ 种微调方法,提供 WebUI 一键式微调界面,兼容 LLaMA、Mistral、Qwen、Baichuan 等主流模型。ACL 2024 论文收录

🎯大模型微调与训练

#LLM#微调#LoRA#WebUI
语言Python
🍴 Forks8,791
📅 上线2023/4/1
🔄 更新2026/6/5
📥 收录2026/4/21

Unsloth

开源66k↑+12

github.com/unslothai/unsloth

LLM 微调 Web UI 和优化工具,62,269+ stars。提供 2 倍训练速度、70% 显存占用的 LLM 微调方案,支持 Llama、Mistral、Qwen 等主流模型的 LoRA/QLoRA 微调

🎯大模型微调与训练

#LLM微调#LoRA#显存优化#Web UI
语言Python
🍴 Forks5,892
📅 上线2023/11/29
🔄 更新2026/6/5
📥 收录2026/4/20

ModelScope SWIFT

开源14k

github.com/modelscope/ms-swift

魔搭社区出品的大模型微调框架,支持 600+ LLM 和 300+ MLLM 的全量/LoRA/DPO/GRPO 微调。覆盖 Qwen3.6、DeepSeek-R1、GLM-5.1、Llama4 等主流模型,提供 WebUI 和 CLI 双接口。14K+ stars,是中国生态最全面的微调工具

🎯大模型微调与训练

#微调#LoRA#多模型#魔搭社区
语言Python
🍴 Forks1,459
🔄 更新2026/6/5
📥 收录2026/5/19

Axolotl

开源12k

github.com/axolotl-ai-cloud/axolotl

LLM 微调训练工具,12K+ stars。支持 LoRA/QLoRA/全参数微调、DPO/ORPO 等对齐方法,兼容 Llama、Mistral、Qwen 等主流模型。提供 YAML 配置驱动的训练流程,是 LLM 微调的事实标准工具之一

🎯大模型微调与训练

#LLM 微调#LoRA#DPO#训练工具
语言Python
🍴 Forks1,362
📅 上线2023/4/14
🔄 更新2026/6/5
📥 收录2026/5/21

CleanRL

开源9.9k

github.com/vwxyzjn/cleanrl

高质量单文件深度强化学习算法实现,涵盖 PPO、DQN、SAC、TD3 等主流算法,代码简洁适合学习和研究对比

🎯强化学习算法学习、教学和新算法的研究对比基线

#强化学习#PPO#DQN#SAC+1
语言Python
📥 收录2026/6/6

OpenRLHF

开源9.6k

github.com/OpenRLHF/OpenRLHF

可扩展的 Agentic RL 训练框架,9.6K+ stars。基于 Ray 构建,支持 PPO/DAPO/REINFORCE++ 等算法,集成 vLLM 加速推理

🎯LLM 对齐训练(RLHF/DPO)、Agent 强化学习

#强化学习#RLHF#PPO#LLM 训练+1
语言Python
🍴 Forks963
📅 上线2023/7/30
🔄 更新2026/6/5
📥 收录2026/6/5