大语言模型2026-05-14 16:00·AITOP100

OpenAI 发布三款实时语音模型:GPT-Realtime-2 具备 GPT-5 级推理能力,支持 70 种语言

OpenAI 发布 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper 三款实时语音模型,首个具备 GPT-5 级推理能力的语音工具正式落地。

语音交互的 GPT-5 时刻

2026 年 5 月 8 日,OpenAI 刷新了语音交互的技术边界。

GPT-Realtime-2

  • 首个 GPT-5 级推理语音模型:能实时进行复杂逻辑推理、灵活调用外部工具
  • 支持打断和纠正:精准识别并处理用户的打断或纠正
  • 定价:音频输入 32 美元/百万 Token,输出 64 美元/百万 Token

GPT-Realtime-Translate

  • 支持 70 种输入语言与 13 种输出语言的即时转换
  • 翻译速度几乎与说话者同步

GPT-Realtime-Whisper

  • 极致的流式转录,"音随人动"的低延迟体验

行业意义

AI 语音交互正从"简单响应"向"深度实时理解"跨越。

来源: AITOP100
链接: https://www.aitop100.cn/ai-daily-2026-05-08