语音AI2026-05-10 04:00·OpenAI

OpenAI 发布三款语音 API 新模型:GPT-Realtime-2 支持 GPT-5 级推理,128K 上下文窗口

OpenAI 发布 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper 三款语音 API 模型。GPT-Realtime-2 是首款支持 GPT-5 级推理的实时语音模型,上下文窗口从 32K 扩展到 128K,支持并行工具调用、前导语和可控推理级别。Zillow 测试显示通话成功率提升 26 个百分点。

OpenAI 语音 API 三重升级

2026 年 5 月 7 日,OpenAI 发布三款音频模型。

GPT-Realtime-2:语音推理新时代

  • GPT-5 级推理能力:首款在实时语音交互中支持 GPT-5 级 reasoning 的模型
  • 上下文窗口扩展:从 32K 提升至 128K,支持更长的 agentic 工作流
  • 并行工具调用:可同时调用多个工具,并通过语音告知用户「正在查看日历」
  • 前导语(Preambles):在正式回复前说「让我查一下」,让用户知道系统在工作
  • 可调推理级别:minimal/low/medium/high/xhigh 五档,默认 low 平衡延迟和深度
  • 更强领域理解:保留专业术语、医疗词汇等生产级词汇表
  • 可控语气:根据场景自动调整语气(冷静处理问题、同情安抚、欢快确认)

实测数据

指标 提升幅度
Big Bench Audio(high) +15.2%
Audio MultiChallenge(xhigh) +13.8%
Zillow 通话成功率 +26 个百分点(69% → 95%)

GPT-Realtime-Translate

  • 支持 70+ 输入语言 → 13 种输出语言
  • 实时翻译,保持与说话者同步
  • Deutsche Telekom 正在测试跨语言客服体验

GPT-Realtime-Whisper

  • 实时流式语音转文字
  • 低延迟,适合会议记录和实时字幕

来源: OpenAI Blog
链接: https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/