核心要点

  • 接现成 ASR:用 Whisper(开源可自部署)或云语音识别服务,别自己从头训

  • 先处理好音频工程:统一格式/采样率(如 16kHz 单声道),长音频要分段,否则模型吃不下或超时

  • 想清楚是「实时流式」还是「批量转写」:边说边出字用流式,录音文件转写用批量,技术选型不同

  • 加后处理:自动标点、说话人分离(谁说的)、专有名词热词纠正,提升可用性

标准回答

接现成模型,别自己造

语音转文字直接用成熟方案:要可控/数据不出域,自部署 Whisper;要省心,用云 ASR 服务。核心工作不是训模型,而是音频工程和工程化。

音频预处理

模型对输入有要求:统一采样率(常见 16kHz)、单声道、转成支持的格式。来源五花八门(手机录音、上传文件)必须先转码归一化,否则识别质量飘忽甚至报错。

两种模式区别

  1. 批量转写:用户上传一段录音,整体转文字。长音频按静音点或固定时长切片分段识别再拼接,避免单次过长超时。
  2. 实时流式:边说边出字(会议、语音输入)。走流式 ASR,按音频片段持续推送、增量返回结果,关注首字延迟

后处理提升体验

自动加标点、多人对话做说话人分离(diarization)、对专有名词/品牌词配热词表纠正。这些直接决定结果好不好用。

常见误区

⚠️ 常见踩坑

不做音频归一化直接喂模型,采样率不对导致识别全乱;以及拿批量模型硬做实时场景,用户说完半天才出字,体验很差。

追问

追问 1识别结果里专有名词、人名总是错,怎么提升?

常用「热词/偏置词表」:把业务专有名词、人名、品牌词配置进去,ASR 在解码时对这些词加权,命中率明显提升。Whisper 可以通过 initial_prompt 提示上下文词汇。再不行就在后处理用业务词典做模糊纠正替换。

追问 2实时场景对延迟敏感,怎么平衡准确率和延迟?

流式 ASR 通常先快速出「临时结果」再随上下文修正成「最终结果」,先让用户看到字降低等待感。可以用更小的模型或更短的音频窗口降延迟,准确率换速度。噪声大的环境加前端降噪和 VAD(语音活动检测)只在有人说话时识别,省算力也减少误识。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。