Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究
🎯适用场景:强化学习算法开发和测试的标准环境接口
📥 收录于 2026/6/7
📊 仓库数据
✅ 优点
- •RL 环境 API 标准,生态兼容性好
- •12k stars 社区认可度高
- •与 Stable Baselines3 等主流框架无缝集成
⚠️ 限制
- •仅提供环境接口,不含算法实现
- •部分环境需要额外安装依赖
🔗 相关工具
ART
github.com/OpenPipe/ART
OpenPipe 开源的 Agent 强化学习训练框架,基于 GRPO 算法对多步 Agent 进行实战训练,支持 Qwen3.6、GPT-OSS、Llama 等主流模型
🎯对 AI Agent 进行强化学习微调,提升复杂任务的执行成功率
LLaMA Factory
github.com/hiyouga/LLaMA-Factory
100+ 大模型高效微调工具,71K+ stars。支持 LoRA、QLoRA、DPO、PPO 等 10+ 种微调方法,提供 WebUI 一键式微调界面,兼容 LLaMA、Mistral、Qwen、Baichuan 等主流模型。ACL 2024 论文收录
🎯大模型微调与训练
LlamaFactory
github.com/hiyouga/LlamaFactory
统一高效微调 100+ 大模型,71K+ stars。支持 100+ LLM 和 VLM 的高效微调框架(ACL 2024 论文收录)
🎯大模型微调与训练
Unsloth
github.com/unslothai/unsloth
LLM 微调 Web UI 和优化工具,62,269+ stars。提供 2 倍训练速度、70% 显存占用的 LLM 微调方案,支持 Llama、Mistral、Qwen 等主流模型的 LoRA/QLoRA 微调
🎯大模型微调与训练
nanoGPT
github.com/karpathy/nanoGPT
Andrej Karpathy 的最小化 GPT 训练实现,仅约 300 行代码即可从头训练 GPT 模型,是学习 LLM 训练原理的最佳入门项目
🎯学习 LLM 训练原理、GPT 模型教学、深度学习课程
nanoChat
github.com/karpathy/nanochat
Karpathy 用 100 美元能买到的最佳 ChatGPT 体验,从数据到训练到推理的完整实现
🎯大模型微调与训练