Voice AI

语音对话 AI

Voice AI 是将语音识别（ASR）、大语言模型（LLM）与语音合成（TTS）整合为一体的对话式语音交互系统，目标是让机器以接近自然人类对话的方式实时理解并回应语音输入。近年来端到端语音模型兴起，开始绕过文本中间层，直接在语音空间完成理解与生成，延迟与表现力均有显著提升。

概述

Voice AI 泛指能与人类进行自然语音对话的人工智能系统，通常由三个核心模块构成：

两种主流架构在延迟、质量与信息保真度上各有取舍：

级联式（ASR → LLM → TTS）：模块解耦，易于替换与独立优化，但存在错误逐层传播和文字转换导致副语言信息丢失的问题。
半级联（AudioLLM → TTS）：LLM 直接摄取语音输入，减少一次转换，保留部分音频特征。
完全端到端（Speech-to-Speech）：单一模型同时处理语音输入与输出，可保留韵律、情感与说话人特征；代表：GPT-4o 语音模式（OpenAI，2024）、Moshi（Kyutai，2024，70 亿参数，开源）。
流式叠加：现代级联系统通过令各阶段并行流式处理，可将端到端响应时延压至 1 秒以内。

人类对话天然是全双工的——双方可同时说话、随时打断，而传统语音 AI 多为半双工（轮流发言）：

VAD（语音活动检测）：持续监听麦克风，判断用户何时开口或停止，是实现打断的基础门控组件。
回声消除（AEC）：系统自身播放 TTS 音频时，麦克风会同时拾取，需实时滤除以防 ASR 误识别自身声音。
LSLM（Listening-while-Speaking LM）：2024 年提出，模型在生成语音的同时持续监听用户输入，支持随时打断，是全双工的前沿方向。
Moshi 实测响应延迟约 200 ms，GPT-4o 语音模式最低延迟约 232 ms、平均约 320 ms（2024 年基准测试数据）。

低延迟是 Voice AI 商用落地的首要工程挑战，主要通过以下手段叠加优化：

Voice AI 的演进与 ASR、LLM、TTS 三条技术线索紧密交织：

2011：Apple 发布 Siri，将语音助手带入主流消费市场，但底层 ASR 仍依赖统计模型。
2014：百度发布「Deep Speech」，端到端深度学习 ASR 开启新时代，在标准测试集错误率降至 16%。
2016：Google 发布 WaveNet，神经网络 TTS 音质首次接近真人水平。
2022：OpenAI 开源 Whisper，多语言 ASR 准确率大幅提升，降低语音应用开发门槛。
2023：LLM 热潮推动大量团队将大模型接入语音流水线，语音客服和 AI 陪伴产品大规模落地。
2024：OpenAI 发布 GPT-4o 原生语音模式；法国 Kyutai 开源端到端模型 Moshi，Speech-to-Speech 路线进入实用阶段。

尽管技术快速进步，Voice AI 仍面临若干尚未完全解决的难题：

Voice AI 技术已渗透到多个高价值商业领域：

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。