大语言模型2026-05-11 12:00·OpenAI Blog + Simon Willison Blog

OpenAI 发布语音智能 API 新模型,低延迟语音能力持续升级

OpenAI 于 5 月 7 日宣布在 API 中推出新的语音智能模型,进一步提升语音交互的实时性和自然度,并分享了低延迟语音 AI 的大规模交付实践。

语音智能 API 升级

2026 年 5 月 7 日,OpenAI 发布语音智能 API 新模型。

技术亮点

  • 新语音模型:API 中可用的最新语音智能模型
  • 低延迟:持续优化语音交互的延迟表现
  • 大规模交付:分享了如何大规模交付低延迟语音 AI 的工程实践

争议与挑战

Simon Willison 报道指出,OpenAI 使用 WebRTC 实现低延迟语音传输,
但 WebRTC 在网络条件差时会 aggressively 丢弃音频包以保持低延迟,
导致语音质量下降。用户宁愿等待 200ms 获取准确的语音,也不愿接受实时但失真的音频。

来源: OpenAI Blog + Simon Willison Blog
链接: https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/