Gymnasium

单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究

🎯适用场景:强化学习算法开发和测试的标准环境接口

#强化学习#gym#api-standard#rl-environment

📥 收录于 2026/6/7

📊 仓库数据

Stars12,029
Forks1,359
语言Python
更新2026/6/9

优点

  • RL 环境 API 标准,生态兼容性好
  • 12k stars 社区认可度高
  • 与 Stable Baselines3 等主流框架无缝集成

⚠️ 限制

  • 仅提供环境接口,不含算法实现
  • 部分环境需要额外安装依赖

🔗 相关工具

ART

开源10.0k

github.com/OpenPipe/ART

OpenPipe 开源的 Agent 强化学习训练框架,基于 GRPO 算法对多步 Agent 进行实战训练,支持 Qwen3.6、GPT-OSS、Llama 等主流模型

🎯对 AI Agent 进行强化学习微调,提升复杂任务的执行成功率

#强化学习#GRPO#Agent 训练#Qwen+1
语言Python
🍴 Forks891
🔄 更新2026/6/9
📥 收录2026/6/6

LLaMA Factory

开源72k-1

github.com/hiyouga/LLaMA-Factory

100+ 大模型高效微调工具,71K+ stars。支持 LoRA、QLoRA、DPO、PPO 等 10+ 种微调方法,提供 WebUI 一键式微调界面,兼容 LLaMA、Mistral、Qwen、Baichuan 等主流模型。ACL 2024 论文收录

🎯大模型微调与训练

#大语言模型#微调#LoRA#WebUI
语言Python
🍴 Forks8,811
📅 上线2023/4/1
🔄 更新2026/6/10
📥 收录2026/4/21

LlamaFactory

开源72k-1

github.com/hiyouga/LlamaFactory

统一高效微调 100+ 大模型,71K+ stars。支持 100+ LLM 和 VLM 的高效微调框架(ACL 2024 论文收录)

🎯大模型微调与训练

#智能体#ai#deepseek#微调+1
语言Python
🍴 Forks8,811
📅 上线2023/5/28
🔄 更新2026/6/10
📥 收录2026/5/20

Unsloth

开源66k+17

github.com/unslothai/unsloth

LLM 微调 Web UI 和优化工具,62,269+ stars。提供 2 倍训练速度、70% 显存占用的 LLM 微调方案,支持 Llama、Mistral、Qwen 等主流模型的 LoRA/QLoRA 微调

🎯大模型微调与训练

#LLM微调#LoRA#显存优化#Web UI
语言Python
🍴 Forks5,922
📅 上线2023/11/30
🔄 更新2026/6/10
📥 收录2026/4/20

nanoGPT

开源59k+7

github.com/karpathy/nanoGPT

Andrej Karpathy 的最小化 GPT 训练实现,仅约 300 行代码即可从头训练 GPT 模型,是学习 LLM 训练原理的最佳入门项目

🎯学习 LLM 训练原理、GPT 模型教学、深度学习课程

#GPT#LLM 训练#教学#PyTorch+1
语言Python
🍴 Forks10,254
🔄 更新2026/6/10
📥 收录2026/5/18

nanoChat

开源55k+5

github.com/karpathy/nanochat

Karpathy 用 100 美元能买到的最佳 ChatGPT 体验,从数据到训练到推理的完整实现

🎯大模型微调与训练

#大语言模型#chat#训练#karpathy
语言Python
🍴 Forks7,451
🔄 更新2026/6/10
📥 收录2026/5/18