核心要点

  • 两段式:声学模型把文本转声学特征(梅尔谱),声码器再把特征转波形。

  • 声学模型:Tacotron(自回归)、FastSpeech(非自回归、更快更稳)。

  • 声码器:WaveNet(高质但慢)、HiFi-GAN(GAN 式、快且高质)。

  • 端到端 VITS 一步出波形;新趋势用 LM+音频 codec(VALL-E)做零样本音色克隆。

标准回答

两段式流水线

经典 TTS 分两步:声学模型把文本(音素)映射为声学特征(通常是梅尔频谱),声码器再把声学特征还原成时域波形。

  • 声学模型:Tacotron 系列自回归生成、自然但慢且易漏字重复;FastSpeech 用时长预测做非自回归并行生成,更快更稳。
  • 声码器:WaveNet 自回归、音质高但推理慢;HiFi-GAN 用 GAN 训练,质量高且推理快,是常用选择。

端到端

VITS 把声学建模与声码器合并,结合 VAE、流模型与对抗训练,从文本直接生成波形,简化流水线并提升自然度。

LM + codec 新范式

VALL-E 等把语音离散化为音频 codec token,用语言模型自回归预测这些 token,再解码为波形。只需几秒参考音频即可零样本克隆音色与韵律,是当前热点方向。

常见误区

⚠️ 常见踩坑

梅尔频谱不是声音本身——声学模型只产出频谱这类中间特征,必须再经声码器才能合成可听波形;二者职责不同,别混为一谈。

追问

追问 1FastSpeech 相比 Tacotron 解决了什么问题?

Tacotron 自回归逐帧生成,速度慢且会出现漏读、重复、停不下来等对齐错误。FastSpeech 用显式时长预测器把文本对齐到帧并非自回归并行生成,推理快几个数量级,且鲁棒性更好、可控制语速。

追问 2VALL-E 这类 LM-based TTS 为什么能零样本克隆音色?

它把语音编码为离散 codec token,并把 TTS 当成条件语言建模:以参考音频的 token 作为提示,模型在「续写」时自然延续说话人音色、韵律和情感,因此只需几秒样本即可零样本克隆,无需为每个说话人单独训练。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。