核心要点
接现成 ASR:用 Whisper(开源可自部署)或云语音识别服务,别自己从头训
先处理好音频工程:统一格式/采样率(如 16kHz 单声道),长音频要分段,否则模型吃不下或超时
想清楚是「实时流式」还是「批量转写」:边说边出字用流式,录音文件转写用批量,技术选型不同
加后处理:自动标点、说话人分离(谁说的)、专有名词热词纠正,提升可用性
标准回答
接现成模型,别自己造
语音转文字直接用成熟方案:要可控/数据不出域,自部署 Whisper;要省心,用云 ASR 服务。核心工作不是训模型,而是音频工程和工程化。
音频预处理
模型对输入有要求:统一采样率(常见 16kHz)、单声道、转成支持的格式。来源五花八门(手机录音、上传文件)必须先转码归一化,否则识别质量飘忽甚至报错。
两种模式区别
- 批量转写:用户上传一段录音,整体转文字。长音频按静音点或固定时长切片分段识别再拼接,避免单次过长超时。
- 实时流式:边说边出字(会议、语音输入)。走流式 ASR,按音频片段持续推送、增量返回结果,关注首字延迟。
后处理提升体验
自动加标点、多人对话做说话人分离(diarization)、对专有名词/品牌词配热词表纠正。这些直接决定结果好不好用。
常见误区
⚠️ 常见踩坑
不做音频归一化直接喂模型,采样率不对导致识别全乱;以及拿批量模型硬做实时场景,用户说完半天才出字,体验很差。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。