SenseVoice
多语言语音理解模型,8.2K+ stars。支持 ASR 语音识别、音频事件检测、跨语言理解和情感检测,是 FunAudioLLM 系列的语音理解模型
🎯适用场景:多语言语音识别和音频内容理解
📊 仓库数据
✅ 优点
- •多语言支持覆盖广
- •集成 ASR+ 事件检测 + 情感分析
- •FunAudioLLM 系列生态
⚠️ 限制
- •相比 Whisper 社区较小
- •长音频处理能力待验证
🔗 相关工具
OpenAI Whisper
开源⭐ 100k↑+27github.com/openai/whisper
OpenAI 开源语音识别模型,99.9K+ stars。支持 99 种语言自动语音识别与翻译,可本地部署保护隐私,广泛用于会议转录、字幕生成等场景
🎯 多语言语音转文字、音频转录、本地私有化语音识别
PaddleOCR
开源⭐ 78k↑+10github.com/PaddlePaddle/PaddleOCR
百度开源的多语言 OCR 工具,75,995+ stars。支持 80+ 语言识别,提供超轻量级中文 OCR 模型(仅几 MB),可部署于服务器、移动端和嵌入式设备,是工业级 OCR 方案的首选
🎯 多模态内容理解与生成
Tesseract OCR
开源⭐ 74k↑+2github.com/tesseract-ocr/tesseract
开源 OCR 引擎,73,620+ stars。由 HP 开发、Google 维护的顶级文字识别引擎,支持 100+ 语言,可识别图片、PDF、扫描件中的文字。结合 LSTM 神经网络实现高精度 OCR,是 AI 文档处理的基础设施。
🎯 多模态内容理解与生成
GPT-SoVITS
开源⭐ 58k↑+15github.com/RVC-Boss/GPT-SoVITS
1 分钟数据训练 TTS,56,826+ stars。强大的少样本语音克隆和文本转语音工具,仅需 1 分钟参考音频即可训练出高质量 TTS 模型,支持多语言和中日英三语合成
🎯 语音合成与实时语音交互
Whisper.cpp
开源⭐ 50k↑+5github.com/ggml-org/whisper.cpp
OpenAI Whisper C/C++ 移植,48,793+ stars。高性能语音识别引擎,将 OpenAI Whisper 移植到 C/C++,支持 99 种语言的语音转文字,CPU 即可高效运行
🎯 多模态内容理解与生成
Voicebox
开源⭐ 28k↑+53github.com/jamiepine/voicebox
Voicebox 是开源的语音合成工作室,提供高质量的文本转语音 (TTS) 能力。支持多语言、多音色、情感化语音生成,22,208 stars(周增 5,198 星)。与商业 TTS 服务不同,Voicebox 完全开源可自部署,提供 Web UI 和 API 两种使用方式。支持声音克隆(少量样本即可)、实时流式输出、SSML 标记语言控制韵律和语调,是播客制作、有声书生成、游戏配音和 AI 语音助手的理想选择
🎯 播客/有声书自动化、游戏 NPC 配音、AI 语音助手、视频内容配音、无障碍朗读