大语言模型2026-05-12 16:00·36 氪

谷歌 Gemini Omni 首曝:视频版'香蕉课堂'来了

谷歌全新 Gemini Omni 模型首次曝光,具备视频理解和生成能力,能够像教授在黑板上推导公式一样,全程可视化教学过程。 该模型代表了谷歌在多模态 AI 方向的最新进展。

谷歌的 Gemini Omni 模型首次对外曝光,展示了令人印象深刻的多模态能力。

Gemini Omni 的核心亮点:

  • 视频级理解:不仅能理解图片,还能分析视频中的动作、流程和逻辑关系
  • '香蕉课堂'式教学:可以模拟教授在黑板上推导公式的完整过程,逐步展示思考链路
  • 多模态生成:支持视频、图片、文本的混合输出

这一进展与 Google 此前的 Gemini 系列形成明显的能力跃升。Gemini Omni 的名称暗示了其'全能'定位——一个模型覆盖所有模态。

目前谷歌尚未正式公布 Gemini Omni 的开放时间和 API 接入方式,但此次曝光表明谷歌在多模态 AI 赛道上正在加速追赶 OpenAI 和 Anthropic。

来源: 36 氪
链接: https://36kr.com/information/AI/