OpenAI Whisper
OpenAI 开源语音识别模型,99.9K+ stars。支持 99 种语言自动语音识别与翻译,可本地部署保护隐私,广泛用于会议转录、字幕生成等场景
🎯适用场景:多语言语音转文字、音频转录、本地私有化语音识别
📊 仓库数据
📈 上次抓取以来 ↑+105 ⭐
✅ 优点
- •OpenAI 官方开源模型
- •支持 99 种语言识别
- •可完全本地部署保护隐私
- •99K+ stars 社区标准
⚠️ 限制
- •实时转录延迟较高
- •大模型推理需 GPU 加速
- •长音频处理内存占用大
🔗 相关工具
FunASR
github.com/modelscope/FunASR
阿里 ModelScope 出品的工业级语音识别工具包,170 倍实时、50+ 语言、说话人分离、情绪检测、流式识别,并提供 OpenAI 兼容 API。16K+ stars,是中文语音 AI 的标杆项目
🎯语音识别转写、会议记录自动转录、智能客服语音理解
ESPnet
github.com/espnet/espnet
端到端语音处理开源工具包,覆盖语音识别、语音合成、说话人分离、语音翻译和歌声合成等全场景能力
🎯语音识别、TTS 合成、语音翻译等端到端语音应用的研发与部署
SenseVoice
github.com/FunAudioLLM/SenseVoice
多语言语音理解模型,8.2K+ stars。支持 ASR 语音识别、音频事件检测、跨语言理解和情感检测,是 FunAudioLLM 系列的语音理解模型
🎯多语言语音识别和音频内容理解
PaddleOCR
github.com/PaddlePaddle/PaddleOCR
百度开源的多语言 OCR 工具,75,995+ stars。支持 80+ 语言识别,提供超轻量级中文 OCR 模型(仅几 MB),可部署于服务器、移动端和嵌入式设备,是工业级 OCR 方案的首选
🎯多模态内容理解与生成
Tesseract OCR
github.com/tesseract-ocr/tesseract
开源 OCR 引擎,73,620+ stars。由 HP 开发、Google 维护的顶级文字识别引擎,支持 100+ 语言,可识别图片、PDF、扫描件中的文字。结合 LSTM 神经网络实现高精度 OCR,是 AI 文档处理的基础设施。
🎯多模态内容理解与生成
GPT-SoVITS
github.com/RVC-Boss/GPT-SoVITS
1 分钟数据训练 TTS,56,826+ stars。强大的少样本语音克隆和文本转语音工具,仅需 1 分钟参考音频即可训练出高质量 TTS 模型,支持多语言和中日英三语合成
🎯语音合成与实时语音交互