FunASR

开源多模态 & 视觉17k

阿里 ModelScope 出品的工业级语音识别工具包,170 倍实时、50+ 语言、说话人分离、情绪检测、流式识别,并提供 OpenAI 兼容 API。16K+ stars,是中文语音 AI 的标杆项目

🎯适用场景:语音识别转写、会议记录自动转录、智能客服语音理解

#ASR#语音识别#多语言#流式识别#OpenAI 兼容

📥 收录于 2026/6/2

📊 仓库数据

Stars16,775
Forks1,721
语言Python
协议MIT
更新2026/5/30

优点

  • 170 倍实时推理速度
  • 支持 50+ 语言中英文优先
  • 说话人分离和情绪检测
  • OpenAI 兼容 API
  • 工业级生产可用

⚠️ 限制

  • 中文文档为主英文文档较少
  • 部分高级功能需要定制
  • 大规模部署需要 GPU

🔗 相关工具

OpenAI Whisper

开源101k↑+13

github.com/openai/whisper

OpenAI 开源语音识别模型,99.9K+ stars。支持 99 种语言自动语音识别与翻译,可本地部署保护隐私,广泛用于会议转录、字幕生成等场景

🎯多语言语音转文字、音频转录、本地私有化语音识别

#语音识别#多语言#转录
语言Python
🍴 Forks12,380
📅 上线2022/9/16
🔄 更新2026/6/1
📥 收录2026/4/11

SenseVoice

开源8.4k↑+5

github.com/FunAudioLLM/SenseVoice

多语言语音理解模型,8.2K+ stars。支持 ASR 语音识别、音频事件检测、跨语言理解和情感检测,是 FunAudioLLM 系列的语音理解模型

🎯多语言语音识别和音频内容理解

#语音识别#音频理解#多语言#情感检测
语言Python
🍴 Forks766
🔄 更新2026/6/1
📥 收录2026/5/24

PaddleOCR

开源79k↑+17

github.com/PaddlePaddle/PaddleOCR

百度开源的多语言 OCR 工具,75,995+ stars。支持 80+ 语言识别,提供超轻量级中文 OCR 模型(仅几 MB),可部署于服务器、移动端和嵌入式设备,是工业级 OCR 方案的首选

🎯多模态内容理解与生成

#OCR#多语言#轻量级#工业级
语言Python
🍴 Forks10,546
📅 上线2020/5/8
🔄 更新2026/6/1
📥 收录2026/4/20

Tesseract OCR

开源74k↑+9

github.com/tesseract-ocr/tesseract

开源 OCR 引擎,73,620+ stars。由 HP 开发、Google 维护的顶级文字识别引擎,支持 100+ 语言,可识别图片、PDF、扫描件中的文字。结合 LSTM 神经网络实现高精度 OCR,是 AI 文档处理的基础设施。

🎯多模态内容理解与生成

#OCR#文字识别#文档处理#多语言
语言C++
🍴 Forks10,645
📅 上线2015/1/1
🔄 更新2026/6/1
📥 收录2026/4/21

GPT-SoVITS

开源58k↑+6

github.com/RVC-Boss/GPT-SoVITS

1 分钟数据训练 TTS,56,826+ stars。强大的少样本语音克隆和文本转语音工具,仅需 1 分钟参考音频即可训练出高质量 TTS 模型,支持多语言和中日英三语合成

🎯语音合成与实时语音交互

#TTS#语音克隆#少样本学习#多语言
语言Python
🍴 Forks6,379
📅 上线2024/1/14
🔄 更新2026/6/1
📥 收录2026/4/20

Whisper.cpp

开源50k↑+7

github.com/ggml-org/whisper.cpp

OpenAI Whisper C/C++ 移植,48,793+ stars。高性能语音识别引擎,将 OpenAI Whisper 移植到 C/C++,支持 99 种语言的语音转文字,CPU 即可高效运行

🎯多模态内容理解与生成

#语音识别#Whisper#C++#跨平台
语言C++
🍴 Forks5,606
📅 上线2022/9/25
🔄 更新2026/6/1
📥 收录2026/4/20