MLX Audio

开源多模态 & 视觉 › TTS/语音合成⭐ 7.6k↑+25

基于 Apple MLX 框架的语音合成与识别库，支持 TTS、STT 和 STT，在 Apple Silicon 上高效运行。

🎯适用场景：在 Mac 上本地运行高质量的语音合成和识别

#tts#stt#speech#mlx#apple-silicon#text-to-speech

📥 收录于 2026/6/10

访问工具

📊 仓库数据

Stars7,636

Forks679

语言Python

更新2026/7/29

📈 Stars 变化 ↑4 天 +25· 统计区间 7/24 23:22 → 7/29 03:42（4 天）

✅ 优点

•Apple Silicon 原生优化，推理速度极快
•同时支持 TTS、STT 和语音转换
•基于 Transformers 生态，模型兼容性好

⚠️ 限制

•仅限 Apple Silicon 硬件
•模型选择相对有限

🔗 相关工具

VibeVoice

开源⭐ 51k↑+423

github.com/microsoft/VibeVoice

微软开源的前沿语音 AI 模型，支持高质量语音合成与声音克隆，适用于多语种 TTS 与语音交互场景

🎯机器人控制、仿真与边缘部署、语音合成与实时语音交互

#voice#speech#microsoft#开源

MockingBird

开源⭐ 37k↓-7

github.com/babysor/MockingBird

5 秒克隆声音，37K+ stars。5 秒克隆声音生成任意语音的实时语音合成工具，支持多语种语音克隆

🎯语音合成与实时语音交互

#ai#深度学习#pytorch#speech+1

Fish Speech

开源⭐ 31k↑+44

github.com/fishaudio/fish-speech

SOTA 开源 TTS，30K+ stars。最先进的开源文本转语音方案，支持高质量语音合成和多语种语音克隆

🎯语音合成与实时语音交互

#llama#Transformer#tts#valle+1

CosyVoice

开源⭐ 22k↑+83

github.com/FunAudioLLM/CosyVoice

阿里 FunAudioLLM 多语言语音生成大模型，提供推理、训练和部署全栈能力，支持跨语种合成和声音克隆。

🎯多语言语音合成、声音克隆、实时语音交互

#语音合成#voice-cloning#tts#multi-lingual

Index Tts

开源⭐ 22k↑+104

github.com/index-tts/index-tts

工业级可控高效 TTS，4.4K+ stars。工业级可控高效的零样本文本转语音方案，支持语音克隆和风格控制

🎯机器人控制、仿真与边缘部署、语音合成与实时语音交互

#bigvgan#cross-lingual#indextts#语音合成+1

Edge Tts

开源⭐ 12k↑+36

github.com/rany2/edge-tts

edge-tts 是一个 Python 库，利用微软 Edge 浏览器的在线语音合成服务实现文本转语音，无需安装 Edge 或 Windows，也不需要 API Key，支持多种语言和声音选择

🎯语音合成 / TTS