Whisper

OpenAI 的语音识别

Whisper 是 OpenAI 于 2022 年发布的开源自动语音识别（ASR）模型，以大规模弱监督预训练为核心，能够在 99 种语言上完成语音转文字与语音翻译。它无需人工精标语料，凭借从互联网收集的 68 万小时音频数据，成为目前最具影响力的开源 ASR 基座之一。

概述

Whisper 将语音识别重新定义为一个序列到序列（seq2seq）问题，用统一架构同时处理转写、翻译和语言检测。

弱监督预训练：训练数据来自互联网，约 68 万小时，无需人工精标，通过噪音过滤与配对文本自动构建监督信号。
多语言覆盖：支持 99 种语言的语音识别，同时可将非英语语音直接翻译为英文文本。
多档规格：模型从 tiny（3900 万参数）到 large-v3（15 亿参数）共 5 档，满足不同算力需求。
开源可部署：权重与代码完全开源，社区已衍生出 faster-whisper、whisper.cpp 等高效推理实现。

工作原理

Whisper 的推理流程从音频预处理开始，经编码器提取表示，再由解码器自回归生成文字。

梅尔频谱图：原始音频先转为 80 通道 Mel spectrogram，再经两层卷积降维，作为编码器输入。
Transformer 编解码器：编码器提取音频语义表示，解码器以自回归方式逐 token 生成文字序列。
控制 token：解码器通过特殊前缀 token 指定语言、任务类型（transcribe / translate）及是否输出时间戳。
30 秒分片机制：模型单次最多处理约 30 秒音频，更长音频需外部切片后逐段推理再拼接。

版本与变体

Whisper 官方持续迭代，社区也围绕其权重构建了大量加速与适配方案。

large-v2 / large-v3：OpenAI 在原版 large 基础上相继发布，重点提升多语言和低资源语言识别质量。
faster-whisper：基于 CTranslate2 的量化推理库，INT8 量化后在同等硬件上速度提升 4 倍以上，显存占用更低。
whisper.cpp：纯 C++ 实现，支持 CPU、Apple Silicon（Metal）及 CUDA，面向嵌入式与移动端部署。
whisper-streaming：在原始 Whisper 外套 VAD 分片与滑动窗口逻辑，实现近实时流式转写。

应用场景

Whisper 以离线批量转写为强项，在多个垂直场景中被广泛集成。

会议与播客转写：将录音直接转为可编辑文稿，是目前最常见的落地用途。
字幕生成：利用时间戳输出自动生成 SRT/VTT 字幕，支持多语言内容本地化。
语音助手前端：作为独立 ASR 模块与 LLM 结合，构建语音交互系统（如本地化语音聊天）。
多语言翻译：直接将非英语语音翻译为英文，无需单独 NMT 模块。
医疗 / 法律转录：凭借较低的词错率（WER）切入专业领域，但通常需在领域语料上微调。

局限与误区

Whisper 在多个方面存在已知缺陷，使用前需有清醒预期。

幻听（Hallucination）：在静音段或低质量音频上，模型可能凭空生成文字，这是弱监督训练引入噪音标签的系统性副作用。
实时延迟高：自回归解码逐 token 生成，原生不支持流式输出，不适合对延迟敏感的实时场景。
语言间差异大：英语训练数据占比远高于小语种，中文、日语等资源较丰富，但稀有语言 WER 可能较高。
专业词汇识别弱：医学、法律、技术术语识别率偏低，需在领域数据上做 LoRA 或全量微调。
30 秒上限：长音频必须切片，切片边界处可能丢字或重复，需额外处理。

与相邻概念的区别

Whisper 在 ASR 技术谱系中处于端到端弱监督方向，与其他路线各有取舍。

Whisper vs HMM-DNN 传统 ASR：传统系统需分别训练声学模型、发音词典、语言模型，流程复杂；Whisper 端到端统一，但可解释性更低。
Whisper vs wav2vec 2.0：wav2vec 采用自监督预训练，在少量标注数据微调后英语 WER 极低；Whisper 优势在于多语言与多任务的零样本泛化能力。
Whisper vs CTC 模型：CTC（如 DeepSpeech）解码速度更快、天然支持流式，但多语言与翻译能力远不如 Whisper。
Whisper vs GPT-4o 语音模式：GPT-4o 将语音能力集成进大模型，实现端到端语音对话；Whisper 更轻量，适合独立部署或嵌入其他系统。

发展脉络

Whisper 自发布以来迭代较快，并深刻影响了开源 ASR 生态。

2022 年 9 月：OpenAI 发布论文《Robust Speech Recognition via Large-Scale Weak Supervision》并开源模型权重，首发含 tiny 至 large 五档规格。
2022 年末：large-v2 发布，多语言识别效果显著提升；faster-whisper、whisper.cpp 等社区加速项目相继出现。
2023 年：large-v3 发布，重点改善低资源语言和噪声场景下的识别质量；OpenAI 同期通过 API 提供 Whisper 托管服务。
2024 年：OpenAI 发布 Whisper large-v3 Turbo，在保持接近 large-v3 精度的同时大幅降低推理成本；同年 GPT-4o 发布，语音能力被整合进更大的多模态框架。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「OpenAI 的语音识别」
「多模态热点」
「跟 Whisper 是一回事吗」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

🎯 考点练习

含该术语的高频面试题，含标准答案与追问。

浏览全部面试题 →

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Whisper」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。