Fish Speech
SOTA 开源 TTS,30K+ stars。最先进的开源文本转语音方案,支持高质量语音合成和多语种语音克隆
🎯适用场景:语音合成与实时语音交互
📊 仓库数据
📈 Stars 变化 ↑2 天 +25· 统计区间 6/10 18:11 → 6/12 06:54(2 天)
✅ 优点
- •多模态输入输出支持
- •兼容主流大模型
- •30K+ stars 社区认可
- •开源免费
⚠️ 限制
- •需要 Python 运行环境
- •通常需要 GPU 算力
- •文档与社区支持因项目而异
🔗 相关工具
CosyVoice
github.com/FunAudioLLM/CosyVoice
阿里 FunAudioLLM 多语言语音生成大模型,提供推理、训练和部署全栈能力,支持跨语种合成和声音克隆。
🎯多语言语音合成、声音克隆、实时语音交互
Index Tts
github.com/index-tts/index-tts
工业级可控高效 TTS,4.4K+ stars。工业级可控高效的零样本文本转语音方案,支持语音克隆和风格控制
🎯机器人控制、仿真与边缘部署、语音合成与实时语音交互
Edge Tts
github.com/rany2/edge-tts
edge-tts 是一个 Python 库,利用微软 Edge 浏览器的在线语音合成服务实现文本转语音,无需安装 Edge 或 Windows,也不需要 API Key,支持多种语言和声音选择
🎯语音合成 / TTS
KrillinAI
github.com/krillinai/krillinai
视频翻译配音工具,10K+ stars。由 LLM 驱动的视频翻译和配音工具,支持多语种视频翻译和配音生成
🎯语音合成与实时语音交互
MLX Audio
github.com/Blaizzy/mlx-audio
基于 Apple MLX 框架的语音合成与识别库,支持 TTS、STT 和 STT,在 Apple Silicon 上高效运行。
🎯在 Mac 上本地运行高质量的语音合成和识别
Real-Time Voice Cloning
github.com/corentinj/real-time-voice-cloning
5 秒语音克隆工具,59,640+ stars。只需 5 秒音频样本即可克隆任意人声,支持实时语音合成,是语音合成和 TTS 领域的里程碑项目
🎯语音合成与实时语音交互