模仿学习（行为克隆 / DAgger）的原理是什么？

Question 1

Accepted Answer

行为克隆（BC） 最基础的模仿学习：收集专家演示 (状态, 动作) 对，用监督学习训练策略拟合专家动作。优点是无需奖励、无需环境交互、训练稳定；缺点是只见过专家轨迹上的状态。 复合误差问题 测试时策略自己驱动环境，一旦动作有小偏差就进入专家未覆盖的状态，模型在这些状态上没学过、预测更差，误差逐步累积（distribution shift / compounding error），轨迹越走越偏。 DAgger 如何纠偏 DAgger（Dataset Aggregation）迭代地：用当前策略采集轨迹 → 对策略实际访问到的状态请专家标注正确动作 → 把新数据并入数据集重训。这样训练分布逐渐覆盖策略自己会遇到的状态，缓解漂移。代价是需要一个能在线查询的专家。

Question 2

没有在线专家时，如何缓解 BC 的复合误差？

Accepted Answer

可注入观测噪声/动作扰动让演示覆盖更多临近状态，做数据增强；用多模态策略（如扩散策略）避免动作平均化；混入少量环境交互做强化学习微调；或用逆强化学习恢复奖励再做 RL。

Question 3

模仿学习和强化学习的关系是什么？

Accepted Answer

模仿学习从专家演示学，不需奖励、样本高效、安全，但上限受专家限制且有漂移。RL 从奖励试错学，能超越专家但样本贵、奖励难设计。常见做法是先用模仿学习预训练再用 RL 微调，兼顾起步快与上限高。

模仿学习（行为克隆 / DAgger）的原理是什么？

核心要点

标准回答

常见误区

追问

延伸学习