标准回答
任务定位
SAM(Segment Anything Model)是一个「可提示分割」基础模型:给定一张图和一个提示(点/框/掩码),输出该提示指向区域的分割掩码,无需针对新类别重新训练。
架构三部分
- 图像编码器:重型 ViT,将整图编码为特征,对每张图只计算一次,可被多次提示复用。
- 提示编码器:把点、框、掩码等稀疏/稠密提示编码为嵌入。
- mask 解码器:轻量结构,融合图像特征与提示嵌入,快速输出掩码,并预测多个候选以应对歧义。
训练与泛化
在 SA-1B 数据集(约 1100 万图、11 亿掩码)上训练,规模化掩码标注带来强零样本泛化:对未见过的物体和领域也能分割。下游只需给提示即可,是「分割界的基础模型」范式。
常见误区
⚠️ 常见踩坑
SAM 做的是类别无关的「分割一切」,本身不输出语义标签;要得到「这是猫」需配合检测/分类模型给出框或文本提示。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。