标准回答
两段式流水线
经典 TTS 分两步:声学模型把文本(音素)映射为声学特征(通常是梅尔频谱),声码器再把声学特征还原成时域波形。
- 声学模型:Tacotron 系列自回归生成、自然但慢且易漏字重复;FastSpeech 用时长预测做非自回归并行生成,更快更稳。
- 声码器:WaveNet 自回归、音质高但推理慢;HiFi-GAN 用 GAN 训练,质量高且推理快,是常用选择。
端到端
VITS 把声学建模与声码器合并,结合 VAE、流模型与对抗训练,从文本直接生成波形,简化流水线并提升自然度。
LM + codec 新范式
VALL-E 等把语音离散化为音频 codec token,用语言模型自回归预测这些 token,再解码为波形。只需几秒参考音频即可零样本克隆音色与韵律,是当前热点方向。
常见误区
⚠️ 常见踩坑
梅尔频谱不是声音本身——声学模型只产出频谱这类中间特征,必须再经声码器才能合成可听波形;二者职责不同,别混为一谈。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。