大语言模型2026-05-09 08:00·OpenAI Blog

OpenAI 推出三款实时语音 API 模型:GPT-Realtime-2 具备 GPT-5 级推理,70+ 语言实时翻译

OpenAI 于 5 月 7 日发布三款新音频模型:GPT-Realtime-2(首个具备 GPT-5 级推理能力的语音模型,上下文窗口从 32K 增至 128K)、GPT-Realtime-Translate(70+ 输入语言到 13 种输出语言的实时翻译)、GPT-Realtime-Whisper(流式语音转文字)。Zillow、Deutsche Telekom 等企业已开始集成。

OpenAI 正在将语音 AI 从简单问答推向真正能执行任务的智能体。

三款新模型

  • GPT-Realtime-2:首个具备 GPT-5 级推理的语音模型,支持并行工具调用、工具透明度(调用时播报"正在查看日历"等)、更强的错误恢复行为、128K 上下文窗口、可调推理级别(minimal → xhigh)
  • GPT-Realtime-Translate:70+ 输入语言到 13 种输出语言的实时翻译,保持与说话者同步
  • GPT-Realtime-Whisper:流式语音转文字,说话时实时转录

性能提升

  • GPT-Realtime-2 (high) 在 Big Bench Audio 上比 GPT-Realtime-1.5 提升 15.2%
  • GPT-Realtime-2 (xhigh) 在 Audio MultiChallenge 上提升 13.8%
  • Zillow 在最困难的对抗性基准上实现 26 个百分点的呼叫成功率提升(95% vs 69%)

三大语音 AI 模式

  1. Voice-to-action:描述需求 → 系统推理 → 完成任务(Zillow 找房助手)
  2. Systems-to-voice:软件主动提供语音指导(旅行应用主动告知航班变更)
  3. Voice-to-voice:AI 帮助跨语言实时对话(Deutsche Telekom 多语言客服)

来源: OpenAI Blog
链接: https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/