Backbone Network（骨干网络）

骨干网络就是模型里负责『看图提特征』的那部分，后面的检测头、分割头都要靠它打底。

亦作、亦称：骨干网络 · backbone · 特征提取网络 · 主干网络

骨干网络是计算机视觉模型的特征提取核心，决定了模型能「看到」多丰富的视觉信息。从 2012 年的 AlexNet 到 2021 年的 Swin Transformer，骨干网络的演进直接推动了视觉 AI 的跨越式进步。

概述

概述：什么是骨干网络

骨干网络是视觉深度学习模型的「感知核心」，承担从原始像素中逐层抽取语义特征的职责。

骨干（Backbone）指模型架构中负责特征提取的主干部分，与下游任务无关
输出通常为多尺度特征图（Feature Map），供检测头、分割头等模块消费
骨干网络可独立预训练，再通过迁移学习（Transfer Learning）迁移到目标任务
典型结构：输入层 → 多个卷积/注意力模块 → 多尺度特征输出
与「颈部（Neck）」和「头部（Head）」共同构成现代视觉模型的三段式架构

工作原理：特征提取机制

骨干网络通过逐层抽象，将低级视觉信息转化为高级语义表示。

浅层：提取边缘、纹理、颜色等低级特征，空间分辨率高
深层：提取物体部件、语义类别等高级特征，感受野（Receptive Field 95）更大
步长（Stride）控制特征图下采样倍率，影响小目标检测能力
CNN 骨干通过卷积核（Convolutional Kernel）共享参数完成局部特征聚合
Transformer 骨干通过自注意力（Self-Attention）建模全局依赖关系

主流骨干类型与代表架构

骨干网络可按底层算子分为 CNN 系和 Transformer 系两大流派，各有适用场景。

VGG（2014）：堆叠 3×3 卷积，结构简单，参数量大，常用于迁移学习基线
- ResNet（2015）：引入残差连接（Residual Connection），解决深层网络梯度消失，ResNet-50/101 至今广泛使用
-EfficientNet（2019）：复合缩放策略，精度与效率兼顾
- ViT（2020）：将图像切分为 Patch，用纯 Transformer 处理，擅长分类
-Swin Transformer（2021）：引入移位窗口（Shifted Window）注意力，支持多尺度输出，成为检测/分割新标准骨干

应用场景

骨干网络是几乎所有主流视觉任务的基础组件，具有高度复用性。

目标检测：YOLO、Faster R-CNN 等检测器均需骨干提供多尺度特征，配合 FPN（特征金字塔网络）
语义/实例分割：Mask R-CNN、SegFormer 依赖骨干的深层语义特征
OCR 文字识别：CRNN 等模型以 VGG/ResNet 作为视觉骨干提取文字区域特征
自监督视觉预训练：MAE、DINO、MoCo 均以 ViT 或 ResNet 为骨干进行对比/掩码学习
多模态大模型：视觉语言模型（如 CLIP、LLaVA）以 ViT 骨干编码图像输入

与颈部、头部的区别

现代视觉模型通常分为骨干、颈部、头部三段，理解各自职责有助于合理选型。

骨干（Backbone）：通用特征提取，与任务无关，可跨任务复用
颈部（Neck）：特征聚合与多尺度融合，如 FPN、PANet，弥补骨干输出粒度差异
头部（Head）：任务特定预测层，如边框回归头、分类头、掩码头
骨干通常参数量最大，是模型精度瓶颈；颈部和头部相对轻量
工程上常固定预训练骨干权重（Freeze Backbone），仅微调颈部和头部以节省算力

局限与常见误区

骨干网络并非越深越好，选型时需综合考虑多个维度。

误区一：认为更大的骨干一定精度更高——实际受限于下游头部设计和数据规模
误区二：混淆骨干与整体模型——骨干仅是模型的特征提取部分，不等于完整检测器
局限一：重型骨干（如 Swin-L）推理延迟高，不适合实时场景
局限二：CNN 骨干感受野受限，对超大目标或全局关系建模能力弱于 Transformer 骨干
局限三：在小数据集上直接训练重型骨干易过拟合，需依赖预训练权重

发展脉络

骨干网络的演进是计算机视觉突破的缩影，从手工特征到自监督 Transformer 历经十余年。

2012：AlexNet 在 ImageNet 夺冠，开启深度卷积骨干时代，引入 ReLU 与 Dropout
2014：VGGNet（牛津 VGG 组）验证深度的重要性，16/19 层结构成为特征提取基线
2015：ResNet（何恺明团队，MSRA）引入残差连接，将骨干深度推至 152 层
2017：DenseNet 引入稠密连接，MobileNet 面向移动端轻量骨干
2019：EfficientNet 提出复合缩放，精度效率达新平衡
2020：ViT（Google）将纯 Transformer 引入视觉骨干
2021：Swin Transformer（微软）以移位窗口注意力成为检测/分割新标准骨干，获 ICCV Best Paper

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「骨干网络就是模型里负责『看图提特征』的那部分，后面的检测头、分割头都要靠它打底。」
「换骨干网络就像换相机镜头，同一个任务头接不同骨干，精度差距可以很大。」
「骨干一般都是在 ImageNet 上预训练好的，拿来直接微调，省时省力。」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Backbone Network」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

速览

一句话定义: 骨干网络是深度学习视觉模型中用于从输入图像提取多层次特征表示的核心子网络，其输出供下游任务头使用。
提出: 概念随 2012 年 AlexNet 在 ImageNet 竞赛夺冠后逐步形成，2015 年随 ResNet 提出残差连接后被广泛确立为独立模块概念。
关键论文 / 来源: He et al., 「Deep Residual Learning for Image Recognition」(ResNet, CVPR 2016)；Simonyan & Zisserman, 「Very Deep Convolutional Networks for Large-Scale Image Recognition」(VGGNet, ICLR 2015)；Liu et al., 「Swin Transformer: Hierarchical Vision Transformer using Shifted Windows」(ICCV 2021 Best Paper)

分类

计算机视觉深度学习机器学习