Sherpa Onnx

开源多模态 & 视觉 › 语音识别 ASR 多模态 & 视觉 › TTS/语音合成⭐ 13k↑+12

基于 ONNX 的多平台语音处理引擎，支持语音转文字（ASR）、文字转语音（TTS）、说话人分离、语音增强和 VAD 等功能，可在 Android/iOS/Raspberry Pi/嵌入式设备上运行。（12K+ stars）

🎯适用场景：离线语音识别、嵌入式 TTS、语音助手后端、会议转录

#speech-to-text#语音合成#onnx#speech#voice

📥 收录于 2026/5/21

访问工具

📊 仓库数据

Stars13,487

Forks1,543

语言C++

协议Apache-2.0

更新2026/7/10

📈 Stars 变化 ↑12 小时 +12· 统计区间 7/10 12:08 → 7/11 00:11（12 小时）

✅ 优点

•跨平台支持极广（Android/iOS/ARM/PC）
•完全离线运行，无需网络
•ASR+TTS+说话人分离一体化

⚠️ 限制

•模型体积较大，嵌入式设备需注意存储
•文档和社区以英文为主

🔗 相关工具

pyVideoTrans

开源⭐ 18k↑+7

github.com/jianchang512/pyvideotrans

视频翻译工具，自动翻译视频并嵌入配音和字幕，17k+ stars

🎯将视频从一种语言翻译到另一种语言并嵌入配音和字幕

#视频翻译#配音#字幕#语音合成+1

语言Python

🍴 Forks2,262

🔄 更新2026/7/10

📥 收录2026/5/22

NVIDIA NeMo

开源⭐ 18k↑+6

github.com/NVIDIA-NeMo/NeMo

NVIDIA 可扩展生成式 AI 框架，17K+ stars。专为 LLM、多模态和语音 AI（ASR + TTS）研究者和开发者设计，是 NVIDIA 生态中训练和部署大模型的标准框架

🎯企业级 LLM/语音模型训练、微调与 NVIDIA 栈部署

#大语言模型#多模态#语音 AI#NVIDIA+1

语言Python

🍴 Forks3,501

🔄 更新2026/7/10

📥 收录2026/5/27

Leon

开源⭐ 17k↑+7

github.com/leon-ai/leon

开源个人 AI 助理，支持语音识别/合成、离线运行、隐私优先，17k+ stars

🎯搭建完全本地化的个人 AI 助理，支持语音交互和自动化任务

#个人助理#语音#开源#离线+1

语言TypeScript

🍴 Forks1,449

🔄 更新2026/7/10

📥 收录2026/5/22

Voice-Pro

开源⭐ 11k↑+2

github.com/abus-aikorea/voice-pro

AI 语音处理全栈 WebUI，10K+ stars。集成 TTS、零样本语音克隆、Whisper 语音识别、Demucs 音轨分离等能力

🎯语音合成、语音克隆、播客/有声书制作、多语言翻译配音

#TTS#语音克隆#Whisper#Gradio+1

语言Python

🍴 Forks1,625

📅 上线2024/7/29

🔄 更新2026/7/10

📥 收录2026/6/5

Silero VAD

开源⭐ 9.6k↑+4

github.com/snakers4/silero-vad

企业级预训练语音活动检测器，轻量高效。支持流式和离线模式，可精确检测语音起止点，是语音识别、会议转录、客服质检等场景的基础设施

🎯语音识别前置处理、会议/客服音频分割、实时语音流检测

#voice-activity-detection#speech-processing#audio#whisper+1

语言Python

🍴 Forks801

📅 上线2021/6/1

🔄 更新2026/7/10

📥 收录2026/6/4

HuggingFace Speech-to-Speech

开源⭐ 6.0k↑+122

github.com/huggingface/speech-to-speech

HuggingFace 开源语音代理框架，4.7K+ stars。用开源模型构建本地语音 Agent，支持语音输入→LLM 处理→语音输出的完整链路，无需依赖云端 API

🎯构建本地语音对话 Agent，避免依赖云端语音 API

#语音 Agent#TTS#ASR#开源模型

语言Python

🍴 Forks837

🔄 更新2026/7/10

📥 收录2026/5/27

← 浏览全部 1267 个工具