如何给产品加一个「语音转文字」功能？

Question 1

如何给产品加一个「语音转文字」功能？

Accepted Answer

接现成模型，别自己造 语音转文字直接用成熟方案：要可控/数据不出域，自部署 Whisper；要省心，用云 ASR 服务。核心工作不是训模型，而是音频工程和工程化。 音频预处理 模型对输入有要求：统一采样率（常见 16kHz）、单声道、转成支持的格式。来源五花八门（手机录音、上传文件）必须先转码归一化，否则识别质量飘忽甚至报错。 两种模式区别 1. 批量转写：用户上传一段录音，整体转文字。长音频按静音点或固定时长切片分段识别再拼接，避免单次过长超时。 2. 实时流式：边说边出字（会议、语音输入）。走流式 ASR，按音频片段持续推送、增量返回结果，关注首字延迟。 后处理提升体验 自动加标点、多人对话做说话人分离（diarization）、对专有名词/品牌词配热词表纠正。这些直接决定结果好不好用。

Question 2

识别结果里专有名词、人名总是错，怎么提升？

Accepted Answer

常用「热词/偏置词表」：把业务专有名词、人名、品牌词配置进去，ASR 在解码时对这些词加权，命中率明显提升。Whisper 可以通过 initial_prompt 提示上下文词汇。再不行就在后处理用业务词典做模糊纠正替换。

Question 3

实时场景对延迟敏感，怎么平衡准确率和延迟？

Accepted Answer

流式 ASR 通常先快速出「临时结果」再随上下文修正成「最终结果」，先让用户看到字降低等待感。可以用更小的模型或更短的音频窗口降延迟，准确率换速度。噪声大的环境加前端降噪和 VAD（语音活动检测）只在有人说话时识别，省算力也减少误识。

如何给产品加一个「语音转文字」功能？

核心要点

标准回答

常见误区

追问

延伸学习