OpenRLHF
可扩展的 Agentic RL 训练框架,9.6K+ stars。基于 Ray 构建,支持 PPO/DAPO/REINFORCE++ 等算法,集成 vLLM 加速推理
🎯适用场景:LLM 对齐训练(RLHF/DPO)、Agent 强化学习
📥 收录于 2026/6/5
📊 仓库数据
✅ 优点
- •高性能可扩展架构
- •支持多种 RL 算法
- •vLLM 加速推理集成
⚠️ 限制
- •需要 GPU 集群资源
- •RL 调参门槛高
🔗 相关工具
Oumi
github.com/oumi-ai/oumi
端到端 LLM/VLM 训练平台,9.2K+ stars。支持 SFT/DPO/评估/部署全流程,兼容 Gemma、Qwen、DeepSeek-R1 等最新模型。提供简洁 API 和预置配方,大幅降低 LLM 微调门槛
🎯大模型微调与训练
LLaMA Factory
github.com/hiyouga/LLaMA-Factory
100+ 大模型高效微调工具,71K+ stars。支持 LoRA、QLoRA、DPO、PPO 等 10+ 种微调方法,提供 WebUI 一键式微调界面,兼容 LLaMA、Mistral、Qwen、Baichuan 等主流模型。ACL 2024 论文收录
🎯大模型微调与训练
Unsloth
github.com/unslothai/unsloth
LLM 微调 Web UI 和优化工具,62,269+ stars。提供 2 倍训练速度、70% 显存占用的 LLM 微调方案,支持 Llama、Mistral、Qwen 等主流模型的 LoRA/QLoRA 微调
🎯大模型微调与训练
Keras
github.com/keras-team/keras
深度学习框架,64,020+ stars。高级神经网络 API,支持 TensorFlow、JAX、PyTorch 多后端。以用户友好著称,让深度学习从实验到生产的转化变得简单高效
🎯大模型微调与训练
nanoChat
github.com/karpathy/nanochat
Karpathy 用 100 美元能买到的最佳 ChatGPT 体验,从数据到训练到推理的完整实现
🎯大模型微调与训练
DeepSpeed
github.com/microsoft/DeepSpeed
深度学习训练优化库,42,156+ stars。微软开发的开源深度学习优化库,提供 ZeRO 内存优化、3D 并行等核心技术,大幅降低大模型训练成本
🎯大模型微调与训练