语音 AI2026-05-10 12:00·OpenAI 官方博客 + AI Tools Recap

OpenAI 发布三款语音模型 API:GPT-Realtime-2 将 GPT-5 推理能力带入实时语音

OpenAI 通过 API 发布三款语音模型:GPT-Realtime-2(将 GPT-5 级推理能力带入低延迟语音)、GPT-Realtime-Whisper(专注转录工作负载)、GPT-Realtime-Translate(语音到语音翻译)。这是 OpenAI 在语音 API 市场对抗 ElevenLabs 和 Deepgram 的重要布局。

OpenAI 语音三剑客

2026 年 5 月 8 日,OpenAI 发布三款语音模型。

三款模型

  1. GPT-Realtime-2:最关键的产品,将 GPT-5 级推理能力应用于低延迟语音交互,这是此前 Realtime API 模型所缺乏的
  2. GPT-Realtime-Whisper:专为转录工作负载优化
  3. GPT-Realtime-Translate:语音到语音翻译

竞争格局

OpenAI 在语音 API 市场直接与 ElevenLabs、Deepgram 和 AssemblyAI 竞争。ElevenLabs 同日宣布 ARR 突破 5 亿美元并大幅降价。

行业意义

GPT-Realtime-2 的发布意味着 AI 语音助手将迎来一轮智能升级——从简单的语音识别+文字回复,升级为具备深度推理能力的实时对话。

来源: OpenAI 官方博客 + AI Tools Recap
链接: https://aitoolsrecap.com/Blog/ai-news-may-8-2026