如何用 AI 给图片自动打标签 / 做图像识别功能？

Question 1

Accepted Answer

先判断：通用还是定制 如果标签是通用的（猫狗、风景、食物、文字），直接用现成能力最划算：云厂商的图像标签 API 开箱即用，或者用多模态大模型，把图片连同 prompt「列出图中的物体和场景标签」发过去，结构化返回。几乎零开发成本。 定制场景才需要自己训 如果要识别自家业务专属类别（如服装的「廓形/领型」），现成模型覆盖不到，就得：定义类别体系→标注一批数据（每类几百到几千张）→微调分类或检测模型→评估迭代。这是有数据和算力门槛的。 落地要点 1. 置信度阈值：模型对每个标签给概率，设阈值（如 0.7），低于的不自动采用。 2. 多标签 vs 单分类：一张图通常多个标签，用多标签输出而非强制选一个。 3. 边缘 case：图里多个物体、严重遮挡、小目标，识别会掉点，需要针对性补数据或人工兜底。

Question 2

多模态大模型直接问图 vs 训练专用分类模型，怎么选？

Accepted Answer

通用、类别开放、量不大、要快上线，选多模态大模型，灵活且无需标注；类别固定、调用量大、要低延迟低成本、精度要求高，训专用模型更划算。也可混合：大模型先粗打标签辅助标注，加速专用模型的数据准备。

Question 3

没有标注数据但又要识别自定义类别，有什么低成本办法？

Accepted Answer

可以用 CLIP 这类图文对比模型做「零样本分类」：把候选类别写成文本，算图片和每个类别文本的相似度，取最高的，不需要训练。精度不如微调但能快速起步，再用它的结果半自动标注，逐步积累数据做正式微调。

如何用 AI 给图片自动打标签 / 做图像识别功能？

核心要点

标准回答

常见误区

追问

延伸学习