OpenAI Whisper

开源多模态 & 视觉102k↑+105

OpenAI 开源语音识别模型,99.9K+ stars。支持 99 种语言自动语音识别与翻译,可本地部署保护隐私,广泛用于会议转录、字幕生成等场景

🎯适用场景:多语言语音转文字、音频转录、本地私有化语音识别

#语音识别#多语言#转录

📥 收录于 2026/4/11

📊 仓库数据

Stars101,746
Forks12,435
语言Python
上线2022/9/16
更新2026/6/6

📈 上次抓取以来 ↑+105

优点

  • OpenAI 官方开源模型
  • 支持 99 种语言识别
  • 可完全本地部署保护隐私
  • 99K+ stars 社区标准

⚠️ 限制

  • 实时转录延迟较高
  • 大模型推理需 GPU 加速
  • 长音频处理内存占用大

🔗 相关工具

FunASR

开源17k↑+16

github.com/modelscope/FunASR

阿里 ModelScope 出品的工业级语音识别工具包,170 倍实时、50+ 语言、说话人分离、情绪检测、流式识别,并提供 OpenAI 兼容 API。16K+ stars,是中文语音 AI 的标杆项目

🎯语音识别转写、会议记录自动转录、智能客服语音理解

#ASR#语音识别#多语言#流式识别+1
语言Python
🍴 Forks1,768
🔄 更新2026/6/6
📥 收录2026/6/2

ESPnet

开源9.9k

github.com/espnet/espnet

端到端语音处理开源工具包,覆盖语音识别、语音合成、说话人分离、语音翻译和歌声合成等全场景能力

🎯语音识别、TTS 合成、语音翻译等端到端语音应用的研发与部署

#语音识别#语音合成#端到端#PyTorch+1
语言Python
🍴 Forks2,409
🔄 更新2026/6/6
📥 收录2026/6/6

SenseVoice

开源8.5k

github.com/FunAudioLLM/SenseVoice

多语言语音理解模型,8.2K+ stars。支持 ASR 语音识别、音频事件检测、跨语言理解和情感检测,是 FunAudioLLM 系列的语音理解模型

🎯多语言语音识别和音频内容理解

#语音识别#音频理解#多语言#情感检测
语言Python
🍴 Forks775
🔄 更新2026/6/6
📥 收录2026/5/24

PaddleOCR

开源81k↑+6

github.com/PaddlePaddle/PaddleOCR

百度开源的多语言 OCR 工具,75,995+ stars。支持 80+ 语言识别,提供超轻量级中文 OCR 模型(仅几 MB),可部署于服务器、移动端和嵌入式设备,是工业级 OCR 方案的首选

🎯多模态内容理解与生成

#OCR#多语言#轻量级#工业级
语言Python
🍴 Forks10,649
📅 上线2020/5/8
🔄 更新2026/6/6
📥 收录2026/4/20

Tesseract OCR

开源75k

github.com/tesseract-ocr/tesseract

开源 OCR 引擎,73,620+ stars。由 HP 开发、Google 维护的顶级文字识别引擎,支持 100+ 语言,可识别图片、PDF、扫描件中的文字。结合 LSTM 神经网络实现高精度 OCR,是 AI 文档处理的基础设施。

🎯多模态内容理解与生成

#OCR#文字识别#文档处理#多语言
语言C++
🍴 Forks10,658
📅 上线2015/1/1
🔄 更新2026/6/6
📥 收录2026/4/21

GPT-SoVITS

开源58k↑+5

github.com/RVC-Boss/GPT-SoVITS

1 分钟数据训练 TTS,56,826+ stars。强大的少样本语音克隆和文本转语音工具,仅需 1 分钟参考音频即可训练出高质量 TTS 模型,支持多语言和中日英三语合成

🎯语音合成与实时语音交互

#TTS#语音克隆#少样本学习#多语言
语言Python
🍴 Forks6,393
📅 上线2024/1/14
🔄 更新2026/6/6
📥 收录2026/4/20