语音合成（TTS）的主流方法有哪些？

Question 1

语音合成（TTS）的主流方法有哪些？

Accepted Answer

两段式流水线 经典 TTS 分两步：声学模型把文本（音素）映射为声学特征（通常是梅尔频谱），声码器再把声学特征还原成时域波形。 - 声学模型：Tacotron 系列自回归生成、自然但慢且易漏字重复；FastSpeech 用时长预测做非自回归并行生成，更快更稳。 - 声码器：WaveNet 自回归、音质高但推理慢；HiFi-GAN 用 GAN 训练，质量高且推理快，是常用选择。 端到端 VITS 把声学建模与声码器合并，结合 VAE、流模型与对抗训练，从文本直接生成波形，简化流水线并提升自然度。 LM + codec 新范式 VALL-E 等把语音离散化为音频 codec token，用语言模型自回归预测这些 token，再解码为波形。只需几秒参考音频即可零样本克隆音色与韵律，是当前热点方向。

Question 2

FastSpeech 相比 Tacotron 解决了什么问题？

Accepted Answer

Tacotron 自回归逐帧生成，速度慢且会出现漏读、重复、停不下来等对齐错误。FastSpeech 用显式时长预测器把文本对齐到帧并非自回归并行生成，推理快几个数量级，且鲁棒性更好、可控制语速。

Question 3

VALL-E 这类 LM-based TTS 为什么能零样本克隆音色？

Accepted Answer

它把语音编码为离散 codec token，并把 TTS 当成条件语言建模：以参考音频的 token 作为提示，模型在「续写」时自然延续说话人音色、韵律和情感，因此只需几秒样本即可零样本克隆，无需为每个说话人单独训练。

语音合成（TTS）的主流方法有哪些？

核心要点

标准回答

常见误区

追问

延伸学习