核心要点
说明插值方法对信息损失的影响
分析分辨率与感受野、小目标检测关系
强调 train/test 尺寸策略一致
提及多尺度训练与推理
简要回答
影响机制
- 信息损失:下采样丢高频细节,小物体可能低于可检测尺寸
- 纵横比扭曲:强行拉伸改变形状先验,分类/检测精度下降
- 分布偏移:训练 224、测试 4K 原图直接缩小,统计特性变
- 计算权衡:分辨率 ↑ → FLOPs 平方级增(ViT patch 数)
插值
- bilinear/bicubic:平滑,适合自然图
- nearest:块效应,仅适合 mask/标签
- area:下采样抗锯齿较好
最佳实践
- 分类:短边 resize + center crop(如 256→224)
- 检测:letterbox pad 到固定 stride 倍数(YOLO 640)
- 分割:双线性图 + 最近邻 mask;推理恢复原尺寸
- 多尺度训练:随机 480-800 短边,提升尺度鲁棒
深度注意:ViT 固定 patch 数,resize 改变语义粒度
标准回答
影响机制
- 信息损失:下采样丢高频细节,小物体可能低于可检测尺寸
- 纵横比扭曲:强行拉伸改变形状先验,分类/检测精度下降
- 分布偏移:训练 224、测试 4K 原图直接缩小,统计特性变
- 计算权衡:分辨率 ↑ → FLOPs 平方级增(ViT patch 数)
插值
- bilinear/bicubic:平滑,适合自然图
- nearest:块效应,仅适合 mask/标签
- area:下采样抗锯齿较好
最佳实践
- 分类:短边 resize + center crop(如 256→224)
- 检测:letterbox pad 到固定 stride 倍数(YOLO 640)
- 分割:双线性图 + 最近邻 mask;推理恢复原尺寸
- 多尺度训练:随机 480-800 短边,提升尺度鲁棒
常见误区
⚠️ 常见踩坑
拉伸变形不 letterbox;mask 双线性插值;训练 224 测试原图不做相同 normalize+resize。
追问
追问 1:小目标检测如何选输入尺寸?
追问 2:上采样用转置卷积还是插值?
转置卷积可学习上采样核但易产生棋盘格伪影(步长与核不整除时);双线性/最近邻插值无参数、稳定无伪影,现多采用「插值 + 普通卷积」组合(如 U-Net、上采样 resize-conv)。需要强表达且能调好核时用转置卷积,追求稳定平滑则用插值,分割 mask 上采样常用双线性。
追问 3:动态分辨率 Transformer 可行吗?
题库专题:Transformer 架构如何工作?通常用于哪些场景?可行。ViT 把图像切成 patch 序列,patch 数随分辨率变化,但位置编码需做插值(如把预训练 224 的位置编码插值到 384/512)才能换分辨率推理。FlexiViT、NaViT 等进一步支持可变 patch 大小与原生分辨率/宽高比训练,省去强制 resize。代价是注意力随 patch 数平方增长,超高分辨率需窗口注意力等稀疏化。
题库延伸:与本追问相关的专题题 → Transformer 架构如何工作?通常用于哪些场景?
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📖 术语表
🛠️ AI 工具