标准回答
行为克隆(BC)
最基础的模仿学习:收集专家演示 (状态, 动作) 对,用监督学习训练策略拟合专家动作。优点是无需奖励、无需环境交互、训练稳定;缺点是只见过专家轨迹上的状态。
复合误差问题
测试时策略自己驱动环境,一旦动作有小偏差就进入专家未覆盖的状态,模型在这些状态上没学过、预测更差,误差逐步累积(distribution shift / compounding error),轨迹越走越偏。
DAgger 如何纠偏
DAgger(Dataset Aggregation)迭代地:用当前策略采集轨迹 → 对策略实际访问到的状态请专家标注正确动作 → 把新数据并入数据集重训。这样训练分布逐渐覆盖策略自己会遇到的状态,缓解漂移。代价是需要一个能在线查询的专家。
常见误区
⚠️ 常见踩坑
BC 的失败不是「拟合不够」而是分布漂移:在训练集上误差很低也可能真机崩溃;只靠加大模型或加数据而不解决状态覆盖,问题依旧。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。