核心要点

  • 能讲清行为克隆(BC):把「状态→专家动作」当监督学习,最小化与专家动作的差异,简单但不与环境交互

  • 能讲清 BC 的核心病灶:复合误差/分布漂移——小误差使智能体进入专家从未到过的状态,越偏越远

  • 能讲清 DAgger 思路:用当前策略跑出轨迹,对其访问到的新状态请专家重新标注动作,聚合数据迭代训练

  • 能说出代价:DAgger 需要可随时查询的在线专家,标注成本高

标准回答

行为克隆(BC)

最基础的模仿学习:收集专家演示 (状态, 动作) 对,用监督学习训练策略拟合专家动作。优点是无需奖励、无需环境交互、训练稳定;缺点是只见过专家轨迹上的状态。

复合误差问题

测试时策略自己驱动环境,一旦动作有小偏差就进入专家未覆盖的状态,模型在这些状态上没学过、预测更差,误差逐步累积(distribution shift / compounding error),轨迹越走越偏。

DAgger 如何纠偏

DAgger(Dataset Aggregation)迭代地:用当前策略采集轨迹 → 对策略实际访问到的状态请专家标注正确动作 → 把新数据并入数据集重训。这样训练分布逐渐覆盖策略自己会遇到的状态,缓解漂移。代价是需要一个能在线查询的专家。

常见误区

⚠️ 常见踩坑

BC 的失败不是「拟合不够」而是分布漂移:在训练集上误差很低也可能真机崩溃;只靠加大模型或加数据而不解决状态覆盖,问题依旧。

追问

追问 1没有在线专家时,如何缓解 BC 的复合误差?

可注入观测噪声/动作扰动让演示覆盖更多临近状态,做数据增强;用多模态策略(如扩散策略)避免动作平均化;混入少量环境交互做强化学习微调;或用逆强化学习恢复奖励再做 RL。

追问 2模仿学习和强化学习的关系是什么?

模仿学习从专家演示学,不需奖励、样本高效、安全,但上限受专家限制且有漂移。RL 从奖励试错学,能超越专家但样本贵、奖励难设计。常见做法是先用模仿学习预训练再用 RL 微调,兼顾起步快与上限高。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。