← 首页/AI 资讯

大语言模型2026-05-12 16:00·36 氪

谷歌 Gemini Omni 首曝：视频版'香蕉课堂'来了

谷歌全新 Gemini Omni 模型首次曝光，具备视频理解和生成能力，能够像教授在黑板上推导公式一样，全程可视化教学过程。该模型代表了谷歌在多模态 AI 方向的最新进展。

谷歌的 Gemini Omni 模型首次对外曝光，展示了令人印象深刻的多模态能力。

Gemini Omni 的核心亮点：

视频级理解：不仅能理解图片，还能分析视频中的动作、流程和逻辑关系
'香蕉课堂'式教学：可以模拟教授在黑板上推导公式的完整过程，逐步展示思考链路
多模态生成：支持视频、图片、文本的混合输出

这一进展与 Google 此前的 Gemini 系列形成明显的能力跃升。Gemini Omni 的名称暗示了其'全能'定位——一个模型覆盖所有模态。

目前谷歌尚未正式公布 Gemini Omni 的开放时间和 API 接入方式，但此次曝光表明谷歌在多模态 AI 赛道上正在加速追赶 OpenAI 和 Anthropic。

来源： 36 氪
链接： https://36kr.com/information/AI/

📰 原始来源

https://36kr.com/information/AI/

← 上一篇

OpenClaw 重磅更新：龙虾'长手长脚'，功能大幅扩展

下一篇 →

可灵 AI 被曝剥离快手独立融资，估值 200 亿美元

📰 更多动态

行业2026-05-13 04:00

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

行业2026-05-13 04:00

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

安全2026-05-13 04:00

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法