核心要点

  • 说明插值方法对信息损失的影响

  • 分析分辨率与感受野、小目标检测关系

  • 强调 train/test 尺寸策略一致

  • 提及多尺度训练与推理

简要回答

影响机制

  1. 信息损失:下采样丢高频细节,小物体可能低于可检测尺寸
  2. 纵横比扭曲:强行拉伸改变形状先验,分类/检测精度下降
  3. 分布偏移:训练 224、测试 4K 原图直接缩小,统计特性变
  4. 计算权衡:分辨率 ↑ → FLOPs 平方级增(ViT patch 数)

插值

  • bilinear/bicubic:平滑,适合自然图
  • nearest:块效应,仅适合 mask/标签
  • area:下采样抗锯齿较好

最佳实践

  • 分类:短边 resize + center crop(如 256→224)
  • 检测:letterbox pad 到固定 stride 倍数(YOLO 640)
  • 分割:双线性图 + 最近邻 mask;推理恢复原尺寸
  • 多尺度训练:随机 480-800 短边,提升尺度鲁棒

深度注意:ViT 固定 patch 数,resize 改变语义粒度

标准回答

影响机制

  1. 信息损失:下采样丢高频细节,小物体可能低于可检测尺寸
  2. 纵横比扭曲:强行拉伸改变形状先验,分类/检测精度下降
  3. 分布偏移:训练 224、测试 4K 原图直接缩小,统计特性变
  4. 计算权衡:分辨率 ↑ → FLOPs 平方级增(ViT patch 数)

插值

  • bilinear/bicubic:平滑,适合自然图
  • nearest:块效应,仅适合 mask/标签
  • area:下采样抗锯齿较好

最佳实践

  • 分类:短边 resize + center crop(如 256→224)
  • 检测:letterbox pad 到固定 stride 倍数(YOLO 640)
  • 分割:双线性图 + 最近邻 mask;推理恢复原尺寸
  • 多尺度训练:随机 480-800 短边,提升尺度鲁棒

深度注意:ViT 固定 patch 数,resize 改变语义粒度;微调时应用与预训练相近分辨率。

工具:PyTorch interpolate、OpenCV resize。详见 CV 工程

常见误区

⚠️ 常见踩坑

拉伸变形不 letterbox;mask 双线性插值;训练 224 测试原图不做相同 normalize+resize。

追问

追问 1小目标检测如何选输入尺寸?

小目标对分辨率极敏感,输入越大小目标像素越多越易检出,但算力呈平方增长。常用更高分辨率(如 1280 而非 640)、多尺度训练与测试、切图(SAHI/滑窗)推理再拼接,并配合 FPN 高分辨率浅层特征。权衡点是延迟显存,遥感/安防小目标场景通常牺牲速度换分辨率。

追问 2上采样用转置卷积还是插值?

转置卷积可学习上采样核但易产生棋盘格伪影(步长与核不整除时);双线性/最近邻插值无参数、稳定无伪影,现多采用「插值 + 普通卷积」组合(如 U-Net、上采样 resize-conv)。需要强表达且能调好核时用转置卷积,追求稳定平滑则用插值,分割 mask 上采样常用双线性。

追问 3动态分辨率 Transformer 可行吗?

题库专题:Transformer 架构如何工作?通常用于哪些场景?

可行。ViT 把图像切成 patch 序列,patch 数随分辨率变化,但位置编码需做插值(如把预训练 224 的位置编码插值到 384/512)才能换分辨率推理。FlexiViT、NaViT 等进一步支持可变 patch 大小与原生分辨率/宽高比训练,省去强制 resize。代价是注意力随 patch 数平方增长,超高分辨率需窗口注意力等稀疏化。

题库延伸:与本追问相关的专题题 → Transformer 架构如何工作?通常用于哪些场景?

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • OpenCV

    开源计算机视觉库,87,181+ stars。全球最广泛使用的计算机视觉库,提供 2500+ 优化算法,涵盖图像处理、目标检测、人脸识别、相机标定等领域。支持 C++、Python、Java,是 AI 视觉应用的基石。

  • Pytorch

    Meta 开源的深度学习框架,100K+ stars。以动态计算图和 Pythonic 风格著称,在学术界和工业界都有广泛应用,支持分布式训练、移动端部署和 ONNX 导出