HuggingFace Speech-to-Speech

开源多模态 & 视觉 › 语音识别 ASR 多模态 & 视觉 › TTS/语音合成⭐ 6.0k↑+122

HuggingFace 开源语音代理框架，4.7K+ stars。用开源模型构建本地语音 Agent，支持语音输入→LLM 处理→语音输出的完整链路，无需依赖云端 API

🎯适用场景：构建本地语音对话 Agent，避免依赖云端语音 API

#语音 Agent#TTS#ASR#开源模型

📥 收录于 2026/5/27

访问工具

📊 仓库数据

Stars5,969

Forks837

语言Python

更新2026/7/10

📈 Stars 变化 ↑12 小时 +122· 统计区间 7/10 12:08 → 7/11 00:11（12 小时）

✅ 优点

•全链路开源，可本地离线运行
•HuggingFace 生态模型选择多
•适合语音 Agent 原型验证
•ASR+LLM+TTS 模块化清晰

⚠️ 限制

•实时延迟取决于本地硬件
•开源模型音质/准确率参差
•多组件联调配置较繁琐
•生产级稳定性需自行优化

🔗 相关工具

Voice-Pro

开源⭐ 11k↑+2

github.com/abus-aikorea/voice-pro

AI 语音处理全栈 WebUI，10K+ stars。集成 TTS、零样本语音克隆、Whisper 语音识别、Demucs 音轨分离等能力

🎯语音合成、语音克隆、播客/有声书制作、多语言翻译配音

#TTS#语音克隆#Whisper#Gradio+1

语言Python

🍴 Forks1,625

📅 上线2024/7/29

🔄 更新2026/7/10

📥 收录2026/6/5

pyVideoTrans

开源⭐ 18k↑+7

github.com/jianchang512/pyvideotrans

视频翻译工具，自动翻译视频并嵌入配音和字幕，17k+ stars

🎯将视频从一种语言翻译到另一种语言并嵌入配音和字幕

#视频翻译#配音#字幕#语音合成+1

语言Python

🍴 Forks2,262

🔄 更新2026/7/10

📥 收录2026/5/22

NVIDIA NeMo

开源⭐ 18k↑+6

github.com/NVIDIA-NeMo/NeMo

NVIDIA 可扩展生成式 AI 框架，17K+ stars。专为 LLM、多模态和语音 AI（ASR + TTS）研究者和开发者设计，是 NVIDIA 生态中训练和部署大模型的标准框架

🎯企业级 LLM/语音模型训练、微调与 NVIDIA 栈部署

#大语言模型#多模态#语音 AI#NVIDIA+1

语言Python

🍴 Forks3,501

🔄 更新2026/7/10

📥 收录2026/5/27

Leon

开源⭐ 17k↑+7

github.com/leon-ai/leon

开源个人 AI 助理，支持语音识别/合成、离线运行、隐私优先，17k+ stars

🎯搭建完全本地化的个人 AI 助理，支持语音交互和自动化任务

#个人助理#语音#开源#离线+1

语言TypeScript

🍴 Forks1,449

🔄 更新2026/7/10

📥 收录2026/5/22

Sherpa Onnx

开源⭐ 13k↑+12

github.com/k2-fsa/sherpa-onnx

基于 ONNX 的多平台语音处理引擎，支持语音转文字（ASR）、文字转语音（TTS）、说话人分离、语音增强和 VAD 等功能，可在 Android/iOS/Raspberry Pi/嵌入式设备上运行。（12K+ stars）

🎯离线语音识别、嵌入式 TTS、语音助手后端、会议转录

#speech-to-text#语音合成#onnx#speech+1

语言C++

🍴 Forks1,543

🔄 更新2026/7/10

📥 收录2026/5/21

Silero VAD

开源⭐ 9.6k↑+4

github.com/snakers4/silero-vad

企业级预训练语音活动检测器，轻量高效。支持流式和离线模式，可精确检测语音起止点，是语音识别、会议转录、客服质检等场景的基础设施

🎯语音识别前置处理、会议/客服音频分割、实时语音流检测

#voice-activity-detection#speech-processing#audio#whisper+1

语言Python

🍴 Forks801

📅 上线2021/6/1

🔄 更新2026/7/10

📥 收录2026/6/4

← 浏览全部 1267 个工具