← 首页/AI 资讯

大语言模型2026-05-09 08:00·OpenAI Blog

OpenAI 推出三款实时语音 API 模型：GPT-Realtime-2 具备 GPT-5 级推理，70+ 语言实时翻译

OpenAI 于 5 月 7 日发布三款新音频模型：GPT-Realtime-2（首个具备 GPT-5 级推理能力的语音模型，上下文窗口从 32K 增至 128K）、GPT-Realtime-Translate（70+ 输入语言到 13 种输出语言的实时翻译）、GPT-Realtime-Whisper（流式语音转文字）。Zillow、Deutsche Telekom 等企业已开始集成。

OpenAI 正在将语音 AI 从简单问答推向真正能执行任务的智能体。

三款新模型

GPT-Realtime-2：首个具备 GPT-5 级推理的语音模型，支持并行工具调用、工具透明度（调用时播报"正在查看日历"等）、更强的错误恢复行为、128K 上下文窗口、可调推理级别（minimal → xhigh）
GPT-Realtime-Translate：70+ 输入语言到 13 种输出语言的实时翻译，保持与说话者同步
GPT-Realtime-Whisper：流式语音转文字，说话时实时转录

性能提升

GPT-Realtime-2 (high) 在 Big Bench Audio 上比 GPT-Realtime-1.5 提升 15.2%
GPT-Realtime-2 (xhigh) 在 Audio MultiChallenge 上提升 13.8%
Zillow 在最困难的对抗性基准上实现 26 个百分点的呼叫成功率提升（95% vs 69%）

三大语音 AI 模式

Voice-to-action：描述需求 → 系统推理 → 完成任务（Zillow 找房助手）
Systems-to-voice：软件主动提供语音指导（旅行应用主动告知航班变更）
Voice-to-voice：AI 帮助跨语言实时对话（Deutsche Telekom 多语言客服）

来源： OpenAI Blog
链接： https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

📰 原始来源

https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

← 上一篇

OpenAI 发布 Codex 安全运行指南：沙箱隔离 + 自动审批 + Agent 遥测，企业级编码 Agent 部署范本

下一篇 →

Mozilla 披露 Claude Mythos 修复 Firefox 271 个漏洞详情：从 15 年老 bug 到 20 年 XSLT 缺陷，4 月修复量从 30 飙升至 423

📰 更多动态

行业2026-05-13 04:00

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

行业2026-05-13 04:00

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

安全2026-05-13 04:00

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法