OpenAI 语音 API 三重升级
2026 年 5 月 7 日,OpenAI 发布三款音频模型。
GPT-Realtime-2:语音推理新时代
- GPT-5 级推理能力:首款在实时语音交互中支持 GPT-5 级 reasoning 的模型
- 上下文窗口扩展:从 32K 提升至 128K,支持更长的 agentic 工作流
- 并行工具调用:可同时调用多个工具,并通过语音告知用户「正在查看日历」
- 前导语(Preambles):在正式回复前说「让我查一下」,让用户知道系统在工作
- 可调推理级别:minimal/low/medium/high/xhigh 五档,默认 low 平衡延迟和深度
- 更强领域理解:保留专业术语、医疗词汇等生产级词汇表
- 可控语气:根据场景自动调整语气(冷静处理问题、同情安抚、欢快确认)
实测数据
| 指标 | 提升幅度 |
|---|---|
| Big Bench Audio(high) | +15.2% |
| Audio MultiChallenge(xhigh) | +13.8% |
| Zillow 通话成功率 | +26 个百分点(69% → 95%) |
GPT-Realtime-Translate
- 支持 70+ 输入语言 → 13 种输出语言
- 实时翻译,保持与说话者同步
- Deutsche Telekom 正在测试跨语言客服体验
GPT-Realtime-Whisper
- 实时流式语音转文字
- 低延迟,适合会议记录和实时字幕
来源: OpenAI Blog
链接: https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/