大语言模型2026-05-17 00:00·Google AI Blog

Gemini API 文件搜索升级为多模态:支持图像和文档的混合 RAG 检索

Google 宣布 Gemini API 的 File Search 功能升级为多模态,支持图像和文本文档的混合检索,显著提升 RAG 系统的效率和准确性。

RAG 的多模态时代

2026 年 5 月,Google 宣布 Gemini API File Search 支持多模态检索。

功能升级

  • 多模态支持:图像和文本文档可混合检索
  • 效率提升:更高效的 RAG 流程,减少不必要的 API 调用
  • 可验证性:检索结果可溯源,增强 RAG 输出的可信度

应用场景

  1. 文档分析:PDF、图片、表格等多种格式的混合检索
  2. 企业知识库:跨模态企业知识管理
  3. 多模态问答:结合图像和文本的综合回答

来源: Google AI Blog
链接: https://blog.google/technology/ai/gemini-api-file-search-multimodal/