OpenAI 发布三款语音 API 新模型：GPT-Realtime-2 支持 GPT-5 级推理，128K 上下文窗口

OpenAI 发布 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper 三款语音 API 模型。GPT-Realtime-2 是首款支持 GPT-5 级推理的实时语音模型，上下文窗口从 32K 扩展到 128K，支持并行工具调用、前导语和可控推理级别。Zillow 测试显示通话成功率提升 26 个百分点。

OpenAI 语音 API 三重升级

2026 年 5 月 7 日，OpenAI 发布三款音频模型。

GPT-Realtime-2：语音推理新时代

GPT-5 级推理能力：首款在实时语音交互中支持 GPT-5 级 reasoning 的模型
上下文窗口扩展：从 32K 提升至 128K，支持更长的 agentic 工作流
并行工具调用：可同时调用多个工具，并通过语音告知用户「正在查看日历」
前导语（Preambles）：在正式回复前说「让我查一下」，让用户知道系统在工作
可调推理级别：minimal/low/medium/high/xhigh 五档，默认 low 平衡延迟和深度
更强领域理解：保留专业术语、医疗词汇等生产级词汇表
可控语气：根据场景自动调整语气（冷静处理问题、同情安抚、欢快确认）

实测数据

指标	提升幅度
Big Bench Audio（high）	+15.2%
Audio MultiChallenge（xhigh）	+13.8%
Zillow 通话成功率	+26 个百分点（69% → 95%）

GPT-Realtime-Translate

支持 70+ 输入语言 → 13 种输出语言
实时翻译，保持与说话者同步
Deutsche Telekom 正在测试跨语言客服体验

GPT-Realtime-Whisper

实时流式语音转文字
低延迟，适合会议记录和实时字幕

来源： OpenAI Blog
链接： https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

OpenAI 发布三款语音 API 新模型：GPT-Realtime-2 支持 GPT-5 级推理，128K 上下文窗口

OpenAI 语音 API 三重升级

GPT-Realtime-2：语音推理新时代

实测数据

GPT-Realtime-Translate

GPT-Realtime-Whisper

📰 更多动态

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法