大语言模型2026-05-10 20:00·OpenAI Blog + Simon Willison

OpenAI 发布语音智能新模型 API,推进语音 AI 商业化

OpenAI 于 5 月 7 日推出新的语音 API 模型,同时发布了《How OpenAI Delivers Low-Latency Voice AI at Scale》技术博客,详细介绍低延迟语音 AI 的架构。但 WebRTC 技术因其激进的延迟优化引发争议。

OpenAI 语音 AI 新模型发布

OpenAI 于 2026 年 5 月 7 日发布新的语音 API 模型。

核心技术

  • 低延迟架构:OpenAI 分享了大规模交付低延迟语音 AI 的技术细节
  • WebRTC 争议:Luke Curley 指出 OpenAI 使用的 WebRTC 在网络条件差时会激进地丢弃音频包以保持低延迟
  • 用户选择权:用户更希望等待 200ms 获得准确的音频,而非立即收到失真的音频

WebRTC 困境

Luke Curley 指出,WebRTC 在浏览器中的实现硬编码为实时低延迟模式,无法在浏览器内重传音频数据包。这对需要高质量音频的 AI 语音交互是一个挑战。

来源: OpenAI Blog + Simon Willison
链接: https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/