标准回答
需求与指标
先定级别与场景:L4 城区对长尾的要求远高于 L2 高速。核心指标:检测 mAP、关键障碍物漏检率(安全红线)、端到端延迟(常需 <100ms)、跟踪 ID 稳定性。安全与实时是硬约束。
整体架构
多传感器输入 → 时空同步与标定 → 感知主干(检测/分割)→ BEV 融合 → 多目标跟踪 → 轨迹预测 → 输出给规划,并与定位/高精地图对齐。
多传感器融合
相机给语义与颜色、激光雷达给精确 3D 结构、毫米波在恶劣天气与测速上鲁棒,三者互补冗余。融合分前融合(原始特征级,信息全但工程难)、中融合(BEV 特征级,主流)、后融合(各自出结果再合并,鲁棒但信息损失)。现代方案多在 BEV 空间做中融合。
感知主干
相机做 2D/3D 检测 与 语义分割,点云做 3D 检测;统一投影到 BEV 鸟瞰图,得到时空一致的环境表示,便于多模态对齐与下游使用。
跟踪与预测
多目标 跟踪(DeepSORT/ByteTrack 类)保持目标 ID 与运动状态;再对动态目标做轨迹预测,输出未来若干秒的可能轨迹供规划决策。
安全与数据闭环
设传感器失效降级与冗余;对 corner case(异形障碍、恶劣天气、遮挡)专门挖掘。建数据闭环:车端触发器回传难例 → 标注/自动标注 → 重训 → 影子模式验证 → 灰度上车,持续压低漏检。
常见误区
⚠️ 常见踩坑
只谈检测精度不谈安全冗余与长尾:自动驾驶漏检代价是事故,必须谈传感器失效降级、误检/漏检的非对称代价与 corner case 闭环,而不是一味追平均 mAP。
追问
追问 1:前融合、中融合、后融合如何取舍?为什么 BEV 中融合成为主流?
后融合各传感器独立出结果再匹配,工程解耦、单传感器失效可降级,但早期信息已丢失、跨模态关联弱。前融合在原始/特征级对齐信息最全,但对标定与时间同步极敏感、算力大。BEV 中融合在统一鸟瞰特征空间融合,兼顾信息保留与工程可控,天然支持时序与多相机拼接,且输出空间直接对接规划,故成主流。
追问 2:如何保证实时性与安全冗余?
追问 3:长尾 corner case 如何系统性解决?
靠数据闭环而非堆模型:车端设触发器(接管、急刹、低置信、预测不一致)自动回传难例;用主动学习与自动标注扩充长尾样本;合成数据与仿真补足危险场景;专门维护 corner case 评测集做回归;新模型先影子模式与小范围灰度验证再放量,形成「发现-标注-训练-验证-上车」的持续循环。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📖 术语表