OpenAI 在两个层面推进了语音 AI 能力。
一方面,在 ChatGPT API 中新增了语音智能功能,让开发者能够构建更自然的语音交互应用。
另一方面,OpenAI 公开了其低延迟语音 AI 的大规模实践:
- 端到端延迟:优化到人类对话级别的延迟(<200ms)
- 规模部署:支持数百万并发用户的同时语音交互
- 成本控制:通过推理优化和模型压缩,降低语音交互的单位成本
TechCrunch 同时报道了 Wispr Flow 在印度市场的语音 AI 尝试——印度语言多样性和口音差异使得语音 AI 落地格外困难,但也意味着巨大的市场空间。
语音 AI 正在从演示级产品走向生产级基础设施。
来源: OpenAI Blog + TechCrunch
链接: https://openai.com/index/delivering-low-latency-voice-ai-at-scale/