标准回答
先判断:通用还是定制
如果标签是通用的(猫狗、风景、食物、文字),直接用现成能力最划算:云厂商的图像标签 API 开箱即用,或者用多模态大模型,把图片连同 prompt「列出图中的物体和场景标签」发过去,结构化返回。几乎零开发成本。
定制场景才需要自己训
如果要识别自家业务专属类别(如服装的「廓形/领型」),现成模型覆盖不到,就得:定义类别体系→标注一批数据(每类几百到几千张)→微调分类或检测模型→评估迭代。这是有数据和算力门槛的。
落地要点
- 置信度阈值:模型对每个标签给概率,设阈值(如 0.7),低于的不自动采用。
- 多标签 vs 单分类:一张图通常多个标签,用多标签输出而非强制选一个。
- 边缘 case:图里多个物体、严重遮挡、小目标,识别会掉点,需要针对性补数据或人工兜底。
常见误区
⚠️ 常见踩坑
不设置信度阈值,把模型瞎猜的低置信标签也自动打上去,污染数据;以及类别定义模糊(什么算「正装」),导致标注不一致、模型怎么训都不准。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。