OpenAI 语音 AI 新模型发布
OpenAI 于 2026 年 5 月 7 日发布新的语音 API 模型。
核心技术
- 低延迟架构:OpenAI 分享了大规模交付低延迟语音 AI 的技术细节
- WebRTC 争议:Luke Curley 指出 OpenAI 使用的 WebRTC 在网络条件差时会激进地丢弃音频包以保持低延迟
- 用户选择权:用户更希望等待 200ms 获得准确的音频,而非立即收到失真的音频
WebRTC 困境
Luke Curley 指出,WebRTC 在浏览器中的实现硬编码为实时低延迟模式,无法在浏览器内重传音频数据包。这对需要高质量音频的 AI 语音交互是一个挑战。
来源: OpenAI Blog + Simon Willison
链接: https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/