OpenAI 正在将语音 AI 从简单问答推向真正能执行任务的智能体。
三款新模型
- GPT-Realtime-2:首个具备 GPT-5 级推理的语音模型,支持并行工具调用、工具透明度(调用时播报"正在查看日历"等)、更强的错误恢复行为、128K 上下文窗口、可调推理级别(minimal → xhigh)
- GPT-Realtime-Translate:70+ 输入语言到 13 种输出语言的实时翻译,保持与说话者同步
- GPT-Realtime-Whisper:流式语音转文字,说话时实时转录
性能提升
- GPT-Realtime-2 (high) 在 Big Bench Audio 上比 GPT-Realtime-1.5 提升 15.2%
- GPT-Realtime-2 (xhigh) 在 Audio MultiChallenge 上提升 13.8%
- Zillow 在最困难的对抗性基准上实现 26 个百分点的呼叫成功率提升(95% vs 69%)
三大语音 AI 模式
- Voice-to-action:描述需求 → 系统推理 → 完成任务(Zillow 找房助手)
- Systems-to-voice:软件主动提供语音指导(旅行应用主动告知航班变更)
- Voice-to-voice:AI 帮助跨语言实时对话(Deutsche Telekom 多语言客服)
来源: OpenAI Blog
链接: https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/