核心要点

  • 定义特征描述子:局部/全局、判别性与可匹配性

  • 举例 SIFT、ORB、HOG、深度特征

  • 说明在匹配、检索、SLAM 中的作用

  • 对比手工特征与 CNN 特征

简要回答

定义:Feature descriptor = 从图像 patch 提取的固定维向量,应满足 判别性(同类相似)、不变性(光照/尺度/旋转适度鲁棒)、可匹配性(可用 L2/汉明距离检索);

经典手工描述子

  • SIFT/SURF:尺度空间极值 + 梯度方向直方图,尺度旋转鲁棒
  • ORB:FAST 角点 + BRIEF 二值描述,快速免费
  • HOG:梯度方向块直方图,行人检测经典
  • LBP:纹理编码

深度描述子

应用场景

  1. 图像拼接、全景图(匹配描述子)
  2. 物体识别/检索(BoVW + SVM 或深度 embedding)
  3. SLAM / 视觉定位(帧间匹配)
  4. 宽基线立体匹配

重要性:在标注稀缺、算力有限、需可解释匹配时,好的描述子仍是核心

标准回答

定义:Feature descriptor = 从图像 patch 提取的固定维向量,应满足 判别性(同类相似)、不变性(光照/尺度/旋转适度鲁棒)、可匹配性(可用 L2/汉明距离检索)。

经典手工描述子

  • SIFT/SURF:尺度空间极值 + 梯度方向直方图,尺度旋转鲁棒
  • ORB:FAST 角点 + BRIEF 二值描述,快速免费
  • HOG:梯度方向块直方图,行人检测经典
  • LBP:纹理编码

深度描述子

  • CNN 中间层激活、NetVLAD、SuperPoint
  • 对比学习(SimCLR、CLIP)学通用嵌入

应用场景

  1. 图像拼接、全景图(匹配描述子)
  2. 物体识别/检索(BoVW + SVM 或深度 embedding)
  3. SLAM / 视觉定位(帧间匹配)
  4. 宽基线立体匹配

重要性:在标注稀缺、算力有限、需可解释匹配时,好的描述子仍是核心;深度学习常与手工几何 pipeline 结合。

详见 特征与匹配

常见误区

⚠️ 常见踩坑

只列名字不说不变性;混淆检测器(关键点)与描述子;忽视深度时代描述子仍用于几何任务。

追问

追问 1SIFT 和 ORB 如何选型?

题库专题:请解释尺度不变特征变换(SIFT)算法

SIFT 精度高但有专利历史、较慢;ORB 免费快速适合移动端实时 SLAM,但旋转尺度大时不如 SIFT 稳。现多结合深度学习 SuperPoint。

题库延伸:与本追问相关的专题题 → 请解释尺度不变特征变换(SIFT)算法

追问 2BoVW 是什么?

Bag of Visual Words:把大量局部描述子(如 SIFT)聚类(K-means)成「视觉词典」,再把每张图量化成词频直方图,当作固定长度特征喂给 SVM 等分类器。它借鉴文本词袋,丢弃空间布局换来尺度/平移鲁棒,是深度学习前图像检索与分类的主流方案。加空间金字塔(SPM)可部分恢复位置信息。

追问 3深度特征如何做图像检索?

预训练 CNN 全局池化或专门 embedding 模型(ResNet、CLIP),建向量索引(FAISS),按余弦距离检索。需处理域偏移与细粒度区分。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。