Voice-Pro

开源多模态 & 视觉 › 语音识别 ASR 多模态 & 视觉 › TTS/语音合成 AI 应用 › 聊天客户端⭐ 11k↑+16

AI 语音处理全栈 WebUI，10K+ stars。集成 TTS、零样本语音克隆、Whisper 语音识别、Demucs 音轨分离等能力

🎯适用场景：语音合成、语音克隆、播客/有声书制作、多语言翻译配音

#TTS#语音克隆#Whisper#Gradio#多语言

📥 收录于 2026/6/5

访问工具

📊 仓库数据

Stars11,185

Forks1,637

语言Python

协议GPL-3.0

上线2024/7/29

更新2026/7/20

📈 Stars 变化 ↑2 天 +16· 统计区间 7/18 23:22 → 7/20 20:02（2 天）

✅ 优点

•TTS + 语音克隆 + 语音识别一体化
•零样本克隆无需训练数据
•Gradio WebUI 开箱即用

⚠️ 限制

•GPL 许可商用受限
•需要 GPU 加速语音克隆

🔗 相关工具

HuggingFace Speech-to-Speech

开源⭐ 6.2k↑+32

github.com/huggingface/speech-to-speech

HuggingFace 开源语音代理框架，4.7K+ stars。用开源模型构建本地语音 Agent，支持语音输入→LLM 处理→语音输出的完整链路，无需依赖云端 API

🎯构建本地语音对话 Agent，避免依赖云端语音 API

#语音 Agent#TTS#ASR#开源模型

语言Python

🍴 Forks797

🔄 更新2026/7/20

📥 收录2026/5/27

pyVideoTrans

开源⭐ 18k↑+23

github.com/jianchang512/pyvideotrans

视频翻译工具，自动翻译视频并嵌入配音和字幕，17k+ stars

🎯将视频从一种语言翻译到另一种语言并嵌入配音和字幕

#视频翻译#配音#字幕#语音合成+1

语言Python

🍴 Forks2,275

🔄 更新2026/7/20

📥 收录2026/5/22

NVIDIA NeMo

开源⭐ 18k↑+8

github.com/NVIDIA-NeMo/NeMo

NVIDIA 可扩展生成式 AI 框架，17K+ stars。专为 LLM、多模态和语音 AI（ASR + TTS）研究者和开发者设计，是 NVIDIA 生态中训练和部署大模型的标准框架

🎯企业级 LLM/语音模型训练、微调与 NVIDIA 栈部署

#大语言模型#多模态#语音 AI#NVIDIA+1

语言Python

🍴 Forks3,510

🔄 更新2026/7/20

📥 收录2026/5/27

Leon

开源⭐ 17k↓-1

github.com/leon-ai/leon

开源个人 AI 助理，支持语音识别/合成、离线运行、隐私优先，17k+ stars

🎯搭建完全本地化的个人 AI 助理，支持语音交互和自动化任务

#个人助理#语音#开源#离线+1

语言TypeScript

🍴 Forks1,453

🔄 更新2026/7/20

📥 收录2026/5/22

Sherpa Onnx

开源⭐ 14k↑+31

github.com/k2-fsa/sherpa-onnx

基于 ONNX 的多平台语音处理引擎，支持语音转文字（ASR）、文字转语音（TTS）、说话人分离、语音增强和 VAD 等功能，可在 Android/iOS/Raspberry Pi/嵌入式设备上运行。（12K+ stars）

🎯离线语音识别、嵌入式 TTS、语音助手后端、会议转录

#speech-to-text#语音合成#onnx#speech+1

语言C++

🍴 Forks1,572

🔄 更新2026/7/20

📥 收录2026/5/21

Silero VAD

开源⭐ 9.6k↑+14

github.com/snakers4/silero-vad

企业级预训练语音活动检测器，轻量高效。支持流式和离线模式，可精确检测语音起止点，是语音识别、会议转录、客服质检等场景的基础设施

🎯语音识别前置处理、会议/客服音频分割、实时语音流检测

#voice-activity-detection#speech-processing#audio#whisper+1

语言Python

🍴 Forks805

📅 上线2021/6/1

🔄 更新2026/7/20

📥 收录2026/6/4

← 浏览全部 1329 个工具