核心要点

  • 通用场景最快:直接调云视觉 API(阿里云/腾讯云/Google Vision),或用多模态大模型给图问「这是什么/有哪些物体」拿标签

  • 需要定制类别(比如自家商品分类):收集标注数据,微调一个分类/检测模型

  • 设置置信度阈值:低于阈值的标签别自动落库,转人工或标记「不确定」

  • 提前定义清楚类别体系:标签太细模型分不开、太粗没价值,边缘 case(多物体、遮挡)要单独想清楚

标准回答

先判断:通用还是定制

如果标签是通用的(猫狗、风景、食物、文字),直接用现成能力最划算:云厂商的图像标签 API 开箱即用,或者用多模态大模型,把图片连同 prompt「列出图中的物体和场景标签」发过去,结构化返回。几乎零开发成本。

定制场景才需要自己训

如果要识别自家业务专属类别(如服装的「廓形/领型」),现成模型覆盖不到,就得:定义类别体系→标注一批数据(每类几百到几千张)→微调分类或检测模型→评估迭代。这是有数据和算力门槛的。

落地要点

  1. 置信度阈值:模型对每个标签给概率,设阈值(如 0.7),低于的不自动采用。
  2. 多标签 vs 单分类:一张图通常多个标签,用多标签输出而非强制选一个。
  3. 边缘 case:图里多个物体、严重遮挡、小目标,识别会掉点,需要针对性补数据或人工兜底。

常见误区

⚠️ 常见踩坑

不设置信度阈值,把模型瞎猜的低置信标签也自动打上去,污染数据;以及类别定义模糊(什么算「正装」),导致标注不一致、模型怎么训都不准。

追问

追问 1多模态大模型直接问图 vs 训练专用分类模型,怎么选?

通用、类别开放、量不大、要快上线,选多模态大模型,灵活且无需标注;类别固定、调用量大、要低延迟低成本、精度要求高,训专用模型更划算。也可混合:大模型先粗打标签辅助标注,加速专用模型的数据准备。

追问 2没有标注数据但又要识别自定义类别,有什么低成本办法?

可以用 CLIP 这类图文对比模型做「零样本分类」:把候选类别写成文本,算图片和每个类别文本的相似度,取最高的,不需要训练。精度不如微调但能快速起步,再用它的结果半自动标注,逐步积累数据做正式微调。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。