Alignment Tax（对齐税）

让模型听话的代价

亦作、亦称：对齐税 · 对齐代价

对齐税指安全对齐（RLHF/DPO）在提升可控性的同时，可能牺牲推理深度、创造力或开放域表现；需在安全与能力间做产品级权衡。

概述

RLHF/DPO 等对齐训练导致模型在安全性提升的同时，推理能力、创造力或指令遵循灵活性下降的现象。对齐税指安全对齐（RLHF/DPO）在提升可控性的同时，可能牺牲推理深度、创造力或开放域表现；需在安全与能力间做产品级权衡。

Alignment Tax常见于：对话助手、代码生成、知识问答、内容创作与 Agent 推理底座。实际选型需结合业务指标、数据规模与部署约束评估适用性。

围绕 Alignment Tax 的口语化说法（见「常见误解」）常过度简化。效果依赖数据质量、任务匹配与系统整体设计；生产环境应配合评测、监控与人工复核。

Alignment Tax随 AI 研究与工程实践持续演进，定义边界与最佳实践仍在更新。建议结合原始论文、官方文档与本站延伸阅读建立准确认知。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。

加载中...