图像缩放如何影响模型性能？

Question 1

图像缩放如何影响模型性能？

Accepted Answer

影响机制 1. 信息损失：下采样丢高频细节，小物体可能低于可检测尺寸 2. 纵横比扭曲：强行拉伸改变形状先验，分类/检测精度下降 3. 分布偏移：训练 224、测试 4K 原图直接缩小，统计特性变 4. 计算权衡：分辨率 ↑ → FLOPs 平方级增（ViT patch 数） 插值 - bilinear/bicubic：平滑，适合自然图 - nearest：块效应，仅适合 mask/标签 - area：下采样抗锯齿较好 最佳实践 - 分类：短边 resize + center crop（如 256→224） - 检测：letterbox pad 到固定 stride 倍数（YOLO 640） - 分割：双线性图 + 最近邻 mask；推理恢复原尺寸 - 多尺度训练：随机 480-800 短边，提升尺度鲁棒 深度注意：ViT 固定 patch 数，resize 改变语义粒度；微调时应用与预训练相近分辨率。 工具：PyTorch interpolate、OpenCV resize。详见 CV 工程。

Question 2

小目标检测如何选输入尺寸？

Accepted Answer

小目标对分辨率极敏感，输入越大小目标像素越多越易检出，但算力呈平方增长。常用更高分辨率（如 1280 而非 640）、多尺度训练与测试、切图（SAHI/滑窗）推理再拼接，并配合 FPN 高分辨率浅层特征。权衡点是延迟与显存，遥感/安防小目标场景通常牺牲速度换分辨率。

Question 3

上采样用转置卷积还是插值？

Accepted Answer

转置卷积可学习上采样核但易产生棋盘格伪影（步长与核不整除时）；双线性/最近邻插值无参数、稳定无伪影，现多采用「插值 + 普通卷积」组合（如 U-Net、上采样 resize-conv）。需要强表达且能调好核时用转置卷积，追求稳定平滑则用插值，分割 mask 上采样常用双线性。

Question 4

动态分辨率 Transformer 可行吗？

Accepted Answer

可行。ViT 把图像切成 patch 序列，patch 数随分辨率变化，但位置编码需做插值（如把预训练 224 的位置编码插值到 384/512）才能换分辨率推理。FlexiViT、NaViT 等进一步支持可变 patch 大小与原生分辨率/宽高比训练，省去强制 resize。代价是注意力随 patch 数平方增长，超高分辨率需窗口注意力等稀疏化。

题库延伸：与本追问相关的专题题 → Transformer 架构如何工作？通常用于哪些场景？

图像缩放如何影响模型性能？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习