Backbone Network(骨干网络)

骨干网络就是模型里负责『看图提特征』的那部分,后面的检测头、分割头都要靠它打底。

亦作、亦称:骨干网络 · backbone · 特征提取网络 · 主干网络

骨干网络是计算机视觉模型的特征提取核心,决定了模型能「看到」多丰富的视觉信息。从 2012 年的 AlexNet 到 2021 年的 Swin Transformer,骨干网络的演进直接推动了视觉 AI 的跨越式进步。

概述

骨干网络是计算机视觉模型的特征提取核心,决定了模型能「看到」多丰富的视觉信息。从 2012 年的 AlexNet 到 2021 年的 Swin Transformer,骨干网络的演进直接推动了视觉 AI 的跨越式进步。

概述:什么是骨干网络

骨干网络是视觉深度学习模型的「感知核心」,承担从原始像素中逐层抽取语义特征的职责。

  • 骨干(Backbone)指模型架构中负责特征提取的主干部分,与下游任务无关
  • 输出通常为多尺度特征图(Feature Map),供检测头、分割头等模块消费
  • 骨干网络可独立预训练,再通过 迁移学习(Transfer Learning)迁移到目标任务
  • 典型结构:输入层 → 多个卷积/注意力模块 → 多尺度特征输出
  • 与「颈部(Neck)」和「头部(Head)」共同构成现代视觉模型的三段式架构

工作原理:特征提取机制

骨干网络通过逐层抽象,将低级视觉信息转化为高级语义表示。

  • 浅层:提取边缘、纹理、颜色等低级特征,空间分辨率高
  • 深层:提取物体部件、语义类别等高级特征,感受野(Receptive Field 95)更大
  • 步长(Stride)控制特征图下采样倍率,影响小目标检测能力
  • CNN 骨干通过卷积核(Convolutional Kernel) 共享参数完成局部特征聚合
  • Transformer 骨干通过 自注意力(Self-Attention)建模全局依赖关系

主流骨干类型与代表架构

骨干网络可按底层算子分为 CNN 系和 Transformer 系两大流派,各有适用场景。

  • VGG(2014)堆叠 3×3 卷积,结构简单,参数量大,常用于迁移学习基线
    -
    ResNet(2015) 引入残差连接(Residual Connection),解决深层网络梯度消失,ResNet-50/101 至今广泛使用
    -EfficientNet(2019)复合缩放策略,精度与效率兼顾
    -
    ViT(2020) 将图像切分为 Patch,用纯 Transformer 处理,擅长分类
    -Swin Transformer(2021)引入移位窗口(Shifted Window)注意力,支持多尺度输出,成为检测/分割新标准骨干

应用场景

骨干网络是几乎所有主流视觉任务的基础组件,具有高度复用性。

  • 目标检测:YOLO、Faster R-CNN 等检测器均需骨干提供多尺度特征,配合 FPN(特征金字塔网络)
  • 语义/实例分割:Mask R-CNN、SegFormer 依赖骨干的深层语义特征
  • OCR 文字识别:CRNN 等模型以 VGG/ResNet 作为视觉骨干提取文字区域特征
  • 自监督视觉预训练:MAE、DINO、MoCo 均以 ViT 或 ResNet 为骨干进行对比/掩码学习
  • 多模态大模型:视觉语言模型(如 CLIP、LLaVA)以 ViT 骨干编码图像输入

与颈部、头部的区别

现代视觉模型通常分为骨干、颈部、头部三段,理解各自职责有助于合理选型。

  • 骨干(Backbone):通用特征提取,与任务无关,可跨任务复用
  • 颈部(Neck):特征聚合与多尺度融合,如 FPNPANet,弥补骨干输出粒度差异
  • 头部(Head):任务特定预测层,如边框回归头、分类头、掩码头
  • 骨干通常参数量最大,是模型精度瓶颈;颈部和头部相对轻量
  • 工程上常固定预训练骨干权重(Freeze Backbone),仅微调颈部和头部以节省算力

局限与常见误区

骨干网络并非越深越好,选型时需综合考虑多个维度。

  • 误区一:认为更大的骨干一定精度更高——实际受限于下游头部设计和数据规模
  • 误区二:混淆骨干与整体模型——骨干仅是模型的特征提取部分,不等于完整检测器
  • 局限一:重型骨干(如 Swin-L)推理延迟高,不适合实时场景
  • 局限二:CNN 骨干感受野受限,对超大目标或全局关系建模能力弱于 Transformer 骨干
  • 局限三:在小数据集上直接训练重型骨干易过拟合,需依赖预训练权重

发展脉络

骨干网络的演进是计算机视觉突破的缩影,从手工特征到自监督 Transformer 历经十余年。

  • 2012AlexNet 在 ImageNet 夺冠,开启深度卷积骨干时代,引入 ReLU 与 Dropout
  • 2014VGGNet(牛津 VGG 组)验证深度的重要性,16/19 层结构成为特征提取基线
  • 2015ResNet(何恺明团队,MSRA)引入残差连接,将骨干深度推至 152 层
  • 2017DenseNet 引入稠密连接,MobileNet 面向移动端轻量骨干
  • 2019EfficientNet 提出复合缩放,精度效率达新平衡
  • 2020ViT(Google)将纯 Transformer 引入视觉骨干
  • 2021Swin Transformer(微软)以移位窗口注意力成为检测/分割新标准骨干,获 ICCV Best Paper

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「骨干网络就是模型里负责『看图提特征』的那部分,后面的检测头、分割头都要靠它打底。」
  • 「换骨干网络就像换相机镜头,同一个任务头接不同骨干,精度差距可以很大。」
  • 「骨干一般都是在 ImageNet 上预训练好的,拿来直接微调,省时省力。」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    目标检测:从 R-CNN 到 YOLO

    梳理两阶段与单阶段检测器的设计差异,对比 YOLO 系列各版本性能

  2. 2

    自监督视觉学习:MAE, DINO, MoCo

    无需标注数据的视觉预训练,掌握自监督学习的最新进展

  3. 3

    OCR 文字识别:CRNN, PaddleOCR

    从传统 OCR 到深度学习,掌握文字识别的完整技术栈

外部参考

维基百科:查看「Backbone Network」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。