Silero VAD

开源多模态 & 视觉 › 语音识别 ASR 多模态 & 视觉 › TTS/语音合成⭐ 9.6k↑+11

企业级预训练语音活动检测器，轻量高效。支持流式和离线模式，可精确检测语音起止点，是语音识别、会议转录、客服质检等场景的基础设施

🎯适用场景：语音识别前置处理、会议/客服音频分割、实时语音流检测

#voice-activity-detection#speech-processing#audio#whisper#tts

📥 收录于 2026/6/4

访问工具 📖 官方文档

📊 仓库数据

Stars9,612

Forks804

语言Python

上线2021/6/1

更新2026/7/18

📈 Stars 变化 ↑1 天 +11· 统计区间 7/17 20:11 → 7/18 23:22（1 天）

✅ 优点

•轻量快速推理，CPU 即可运行
•精确的语音起止点检测
•兼容 Whisper 等语音模型
•企业级预训练模型

⚠️ 限制

•仅做 VAD 不做语音识别
•嘈杂环境效果有限
•需配合其他语音模型使用

🔗 相关工具

pyVideoTrans

开源⭐ 18k↑+12

github.com/jianchang512/pyvideotrans

视频翻译工具，自动翻译视频并嵌入配音和字幕，17k+ stars

🎯将视频从一种语言翻译到另一种语言并嵌入配音和字幕

#视频翻译#配音#字幕#语音合成+1

语言Python

🍴 Forks2,275

🔄 更新2026/7/18

📥 收录2026/5/22

NVIDIA NeMo

开源⭐ 18k↑+3

github.com/NVIDIA-NeMo/NeMo

NVIDIA 可扩展生成式 AI 框架，17K+ stars。专为 LLM、多模态和语音 AI（ASR + TTS）研究者和开发者设计，是 NVIDIA 生态中训练和部署大模型的标准框架

🎯企业级 LLM/语音模型训练、微调与 NVIDIA 栈部署

#大语言模型#多模态#语音 AI#NVIDIA+1

语言Python

🍴 Forks3,506

🔄 更新2026/7/18

📥 收录2026/5/27

Leon

开源⭐ 17k↑+3

github.com/leon-ai/leon

开源个人 AI 助理，支持语音识别/合成、离线运行、隐私优先，17k+ stars

🎯搭建完全本地化的个人 AI 助理，支持语音交互和自动化任务

#个人助理#语音#开源#离线+1

语言TypeScript

🍴 Forks1,451

🔄 更新2026/7/18

📥 收录2026/5/22

Sherpa Onnx

开源⭐ 14k↑+16

github.com/k2-fsa/sherpa-onnx

基于 ONNX 的多平台语音处理引擎，支持语音转文字（ASR）、文字转语音（TTS）、说话人分离、语音增强和 VAD 等功能，可在 Android/iOS/Raspberry Pi/嵌入式设备上运行。（12K+ stars）

🎯离线语音识别、嵌入式 TTS、语音助手后端、会议转录

#speech-to-text#语音合成#onnx#speech+1

语言C++

🍴 Forks1,568

🔄 更新2026/7/18

📥 收录2026/5/21

Voice-Pro

开源⭐ 11k↑+4

github.com/abus-aikorea/voice-pro

AI 语音处理全栈 WebUI，10K+ stars。集成 TTS、零样本语音克隆、Whisper 语音识别、Demucs 音轨分离等能力

🎯语音合成、语音克隆、播客/有声书制作、多语言翻译配音

#TTS#语音克隆#Whisper#Gradio+1

语言Python

🍴 Forks1,634

📅 上线2024/7/29

🔄 更新2026/7/18

📥 收录2026/6/5

HuggingFace Speech-to-Speech

开源⭐ 6.2k↑+13

github.com/huggingface/speech-to-speech

HuggingFace 开源语音代理框架，4.7K+ stars。用开源模型构建本地语音 Agent，支持语音输入→LLM 处理→语音输出的完整链路，无需依赖云端 API

🎯构建本地语音对话 Agent，避免依赖云端语音 API

#语音 Agent#TTS#ASR#开源模型

语言Python

🍴 Forks788

🔄 更新2026/7/18

📥 收录2026/5/27

← 浏览全部 1318 个工具