语音交互的 GPT-5 时刻
2026 年 5 月 8 日,OpenAI 刷新了语音交互的技术边界。
GPT-Realtime-2
- 首个 GPT-5 级推理语音模型:能实时进行复杂逻辑推理、灵活调用外部工具
- 支持打断和纠正:精准识别并处理用户的打断或纠正
- 定价:音频输入 32 美元/百万 Token,输出 64 美元/百万 Token
GPT-Realtime-Translate
- 支持 70 种输入语言与 13 种输出语言的即时转换
- 翻译速度几乎与说话者同步
GPT-Realtime-Whisper
- 极致的流式转录,"音随人动"的低延迟体验
行业意义
AI 语音交互正从"简单响应"向"深度实时理解"跨越。
来源: AITOP100
链接: https://www.aitop100.cn/ai-daily-2026-05-08