VQA（视觉问答）

看图回答问题

亦作、亦称：视觉问答 · Visual Question Answering

视觉问答（VQA）是一项要求模型同时理解图像内容与自然语言问题、并给出自由文本答案的多模态任务。它是衡量模型「看懂图 + 读懂问 + 跨模态推理」综合能力的经典基准。

概述

VQA 将计算机视觉与自然语言处理融合为单一任务，要求模型完成「图像理解 → 问题理解 → 跨模态推理 → 生成答案」的完整链路。

现代 VQA 模型通常采用「视觉编码器 + 语言编码器 + 跨模态融合」三段架构。

VQA 依据问题类型和任务设置衍生出多个子方向。

VQA 能力已渗透到多个产品形态。

VQA 常与几个相近任务混淆，以下逐一对比。

VQA vs 图像描述（Image Captioning）：描述是模型主动生成文本概括图像，VQA 是被动回答指定问题；前者无约束，后者强调精准响应
VQA vs 视觉定位（Visual Grounding）：定位任务要求输出目标的边界框坐标，VQA 输出文本答案；两者可以结合（如 Grounding VQA）
VQA vs 多模态对话（Multimodal Chat）：多模态对话是多轮交互，VQA 通常是单轮问答；现代大模型往往将 VQA 作为多模态对话能力的子集
VQA vs OCR：OCR 专注从图中提取文字，VQA 的 TextVQA 变体则在此基础上还需理解和推理

VQA 模型存在几类系统性缺陷，需重点警惕。

语言先验偏差：模型可能无需真正看图，仅凭问题统计规律猜到高频答案（如「香蕉是什么颜色？」→「黄色」），VQAv2 数据集通过构造平衡样本对来缓解此问题
计数能力弱：视觉模型对精确计数困难，超过 5 个对象时误差明显
空间关系误判：「左边」「上方」「背后」等相对位置关系常被错误理解
幻觉（Hallucination）：模型可能自信地描述图中不存在的对象或属性
评测局限：传统准确率指标对同义答案不鲁棒，评测结果可能高估实际能力

从早期分类头到今日大模型端到端生成，VQA 走过十余年演进。

2014：Malinowski & Fritz 发布 DAQUAR 数据集，是最早的视觉问答数据集，专注室内场景
2015：Antol、Agrawal 等人在 ICCV 发布 VQA 数据集（约 25 万张图、76 万问题），正式确立 VQA 任务标准
2017：VQAv2 发布，通过正负样本配对抑制语言先验；Bottom-Up Top-Down Attention（Anderson et al.）引入目标检测特征，显著提升性能
2019：ViLBERT、LXMERT 等双流预训练模型兴起，视觉-语言联合预训练成主流范式
2021：ViT 统一视觉表示，单流架构（如 SimVLM）开始替代双流
2023：LLaVA、MiniGPT-4 将 VQA 能力整合进大语言模型，端到端生成成主流；GPT-4V 展现强大零样本 VQA 能力
2024 至今：InternVL、Qwen-VL 等多模态大模型持续迭代，VQA 逐渐成为通用多模态能力的子集而非独立赛道

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。