谷歌的 Gemini Omni 模型首次对外曝光,展示了令人印象深刻的多模态能力。
Gemini Omni 的核心亮点:
- 视频级理解:不仅能理解图片,还能分析视频中的动作、流程和逻辑关系
- '香蕉课堂'式教学:可以模拟教授在黑板上推导公式的完整过程,逐步展示思考链路
- 多模态生成:支持视频、图片、文本的混合输出
这一进展与 Google 此前的 Gemini 系列形成明显的能力跃升。Gemini Omni 的名称暗示了其'全能'定位——一个模型覆盖所有模态。
目前谷歌尚未正式公布 Gemini Omni 的开放时间和 API 接入方式,但此次曝光表明谷歌在多模态 AI 赛道上正在加速追赶 OpenAI 和 Anthropic。
来源: 36 氪
链接: https://36kr.com/information/AI/