Safe RLHF

开源训练 & 微调 › 对齐与 RLHF⭐ 1.6k

PKU-Alignment 出品的安全强化学习人类反馈框架，1.6K+ stars。通过安全 RLHF 实现约束价值对齐，是 AI 安全对齐领域的前沿研究

🎯适用场景：大模型安全对齐训练

#AI 安全#对齐#rlhf#safety#value-alignment

📥 收录于 2026/5/29

访问工具

📊 仓库数据

Stars1,610

Forks133

语言Python

更新2026/7/13

✅ 优点

•北大出品学术严谨
•安全 RLHF 前沿
•Deepspeed 集成

⚠️ 限制

•需要 GPU 训练资源
•偏研究非生产工具

🔗 相关工具

TRL

开源⭐ 19k↑+2

github.com/huggingface/trl

Hugging Face 维护的 Transformer Reinforcement Learning 库，覆盖 SFT、DPO、PPO 等对齐训练流程，常用于 LLM 后训练实验。

🎯做大模型 SFT、DPO、PPO 或偏好对齐训练实验。

#RLHF#DPO#SFT#后训练+1

语言Python

🍴 Forks2,841

🔄 更新2026/7/14

📥 收录2026/7/12

CleanRL

开源⭐ 10k↑+2

github.com/vwxyzjn/cleanrl

高质量单文件深度强化学习算法实现，涵盖 PPO、DQN、SAC、TD3 等主流算法，代码简洁适合学习和研究对比

🎯强化学习算法学习、教学和新算法的研究对比基线

#强化学习#PPO#DQN#SAC+1

语言Python

🍴 Forks1,128

🔄 更新2026/7/14

📥 收录2026/6/6

Oumi

开源⭐ 9.3k↑+2

github.com/oumi-ai/oumi

端到端 LLM/VLM 训练平台，9.2K+ stars。支持 SFT/DPO/评估/部署全流程，兼容 Gemma、Qwen、DeepSeek-R1 等最新模型。提供简洁 API 和预置配方，大幅降低 LLM 微调门槛

🎯大模型微调与训练

#LLM 训练#SFT#DPO#模型部署

语言Python

🍴 Forks783

📅 上线2024/5/8

🔄 更新2026/7/14

📥 收录2026/5/21

LLaMA Factory

开源⭐ 73k↑+17

github.com/hiyouga/LLaMA-Factory

100+ 大模型高效微调工具，71K+ stars。支持 LoRA、QLoRA、DPO、PPO 等 10+ 种微调方法，提供 WebUI 一键式微调界面，兼容 LLaMA、Mistral、Qwen、Baichuan 等主流模型。ACL 2024 论文收录

🎯大模型微调与训练

#大语言模型#微调#LoRA#WebUI

语言Python

🍴 Forks8,947

📅 上线2023/4/1

🔄 更新2026/7/14

📥 收录2026/4/21

LlamaFactory

开源⭐ 73k↑+17

github.com/hiyouga/LlamaFactory

统一高效微调 100+ 大模型，71K+ stars。支持 100+ LLM 和 VLM 的高效微调框架（ACL 2024 论文收录）

🎯大模型微调与训练

#智能体#ai#deepseek#微调+1

语言Python

🍴 Forks8,947

📅 上线2023/5/28

🔄 更新2026/7/14

📥 收录2026/5/20

Unsloth

开源⭐ 68k↑+62

github.com/unslothai/unsloth

LLM 微调 Web UI 和优化工具，62,269+ stars。提供 2 倍训练速度、70% 显存占用的 LLM 微调方案，支持 Llama、Mistral、Qwen 等主流模型的 LoRA/QLoRA 微调

🎯大模型微调与训练

#LLM微调#LoRA#显存优化#Web UI

语言Python

🍴 Forks6,129

📅 上线2023/11/30

🔄 更新2026/7/14

📥 收录2026/4/20

← 浏览全部 1285 个工具