TTS（文字转语音）

AI 说话

亦作、亦称：文字转语音

文字转语音（Text-to-Speech，TTS）是将书面文本自动合成为可听自然语音的技术，经历了从规则拼接到深度神经网络端到端生成的根本性演变。现代神经 TTS 系统已能输出与真人声音难以区分的高质量语音，并支持零样本声音克隆与实时流式合成。

概述

基本概念

TTS 将文本映射为语音，需要解决发音、韵律、音色三个核心问题。

发音（Pronunciation）：将字符或词语转化为音素序列，处理多音字、缩写、数字等歧义
韵律（Prosody）：控制语速、停顿、音调起伏，使语音具有自然节奏感
声码器（Vocoder）：将声学特征（如梅尔频谱）转换为最终的时域音频波形
自然度与延迟的权衡：高质量模型计算量大，实时应用对首包延迟（TTFB）要求苛刻
零样本克隆：仅用数秒参考音频即可复刻特定说话人音色，是现代 TTS 的重要能力

发展脉络

TTS 历经数十年演进，深度学习的引入是最重要的范式转变。

1950—1990 年代：共振峰合成（Formant Synthesis），用数学模型模拟声道，声音机械感强
1990—2000 年代：拼接合成（Concatenative Synthesis），拼接预录制语音片段，自然度提升但灵活性差
2000 年代：统计参数合成（HMM-TTS），用隐马尔可夫模型预测声学参数，可控性增强
2016：WaveNet（DeepMind）提出，直接对原始音频波形建模，首次用神经网络大幅超越人类基线质量
2017：Tacotron（Google Brain）发布，端到端序列到序列架构直接从文本预测梅尔频谱，消除手工特征工程
2018：Tacotron 2 将声学模型与 WaveNet 声码器结合，语音质量接近真人水平
2019—2020：FastSpeech / FastSpeech 2 引入非自回归并行生成，推理延迟降至毫秒级
2021 至今：VITS、NaturalSpeech 系列、CosyVoice（阿里巴巴 DAMO，2024）等系统引入流匹配与大语言模型骨干，实现实时零样本克隆

核心架构

现代神经 TTS 通常采用「声学模型 + 声码器」两阶段流水线，也有端到端方案。

声学模型：将文本或音素序列转换为中间声学表示（多为梅尔频谱），典型方案有 Tacotron 2、FastSpeech 2
神经声码器：将梅尔频谱还原为音频波形，代表模型有 WaveNet、HiFi-GAN、BigVGAN
端到端方案：VITS（Variational Inference with adversarial learning for end-to-end TTS）直接从文本输出波形，延迟更低
LLM 驱动架构：CosyVoice 2 以大语言模型为骨干，将文本转化为监督语义 Token 序列，再通过流匹配（Flow Matching）合成语音，内容一致性与零样本能力显著提升
流式生成：Chunk-Aware 因果模型按块实时输出音频，支持低延迟对话场景

核心评估指标

TTS 系统的好坏需从多个维度评估，没有单一完美指标。

MOS（Mean Opinion Score）：主观均值意见分，5 分制，是衡量自然度的黄金标准，但需要大量人工标注
WER（Word Error Rate）：用 ASR 系统对 TTS 输出转写，衡量可懂度
UTMOS / DNSMOS：自动化 MOS 预测模型，可替代部分人工评测
说话人相似度（Speaker Similarity）：克隆场景下用余弦相似度衡量生成音色与参考音色的接近程度
首包延迟（TTFB）：实时应用中从文本输入到首段音频输出的时间，直接影响对话体验

代表性系统

当前 TTS 生态中既有商业产品也有开源方案，覆盖不同场景需求。

ElevenLabs：商业平台，以高自然度和情感克隆见长，面向内容创作者，提供流式 API
CosyVoice / CosyVoice 2（阿里巴巴 DAMO）：开源多语言零样本 TTS，基于监督语义 Token + 流匹配，支持实时流式
OpenAI TTS：集成于 GPT-4o 语音模式，支持多种音色，提供商业 API
微软 Azure TTS / Google Cloud TTS：企业级稳定性高，支持 SSML 精细控制韵律
VITS / VITS 2：学术界和开源社区广泛使用的端到端基础架构
Fish Speech / Kokoro TTS：轻量化开源方案，可在消费级 GPU 上实时推理

产品选型权衡

为实际产品选择 TTS 方案时，需在三个维度上做取舍。

自然度 vs. 延迟：高保真模型计算量大，不适合毫秒级实时对话；流式小模型延迟低但音质有损
情感控制 vs. 稳定性：情感克隆能力强的模型在输入噪声或口音文本时容易出现韵律抖动
零样本克隆 vs. 合规风险：声音克隆能力越强，声纹仿冒风险越高，需配套使用检测与水印技术
本地部署 vs. 云 API：隐私敏感场景优先本地化开源方案，商业产品 API 更省运维成本
多语言支持：中文 TTS 对多音字、儿化、语气词有特殊处理需求，需专门评估中文基准

安全与伦理

TTS 技术的滥用风险随能力提升而显著上升，需配套治理措施。

声音深伪（Voice Deepfake）：克隆名人或普通人声音用于诈骗、舆论操控，是当前最主要的滥用场景
声学水印（Audio Watermark）：在生成音频中嵌入不可感知的标记，用于事后归因和内容溯源
说话人同意原则：主流伦理框架要求在克隆特定人声前获取明确授权
检测对抗：随着合成质量提升，音频 Deepfake 检测难度持续增大，形成攻防博弈
监管趋势：欧盟 AI 法案等法规要求对 AI 生成语音进行标注披露，部分平台已强制内嵌水印

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「AI 说话」
「多模态热点」
「跟 TTS 是一回事吗」

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「TTS」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。