edge-tts

开源多模态 & 视觉11k

edge-tts 是一个 Python 库,利用微软 Edge 浏览器的在线语音合成服务实现文本转语音,无需安装 Edge 或 Windows,也不需要 API Key,支持多种语言和声音选择

🎯适用场景:语音合成 / TTS

#speech-synthesis#text-to-speech#tts

📊 仓库数据

Stars11,019
Forks1,101
语言Python
上线2026/3/22
更新2026/3/22

优点

  • 开源免费
  • 无需 API Key
  • 支持多语言多音色

⚠️ 限制

  • 依赖微软服务稳定性
  • 离线环境无法使用

🔗 相关工具

piper

开源11k

github.com/rhasspy/piper

Piper 是一个快速、轻量级的本地神经语音合成系统,基于 C++ 实现,支持多语言离线运行,可在树莓派等低性能设备上流畅工作,适合智能家居场景

🎯 语音合成 / TTS

#speech-synthesis#text-to-speech#tts
语言C++
🍴 Forks1,099
📅 上线2025/8/26
🔄 更新2025/8/26

index-tts

开源21k

github.com/index-tts/index-tts

工业级可控高效 TTS,4.4K+ stars。工业级可控高效的零样本文本转语音方案,支持语音克隆和风格控制

🎯 机器人控制、仿真与边缘部署、语音合成与实时语音交互

#bigvgan#cross-lingual#indextts#text-to-speech+1
语言Python
🍴 Forks2,559
📅 上线2025/2/6
🔄 更新2026/5/24

MockingBird

开源37k↑+2

github.com/babysor/MockingBird

5 秒克隆声音,37K+ stars。5 秒克隆声音生成任意语音的实时语音合成工具,支持多语种语音克隆

🎯 语音合成与实时语音交互

#ai#deep-learning#pytorch#speech+1
语言Python
🍴 Forks5,218
📅 上线2021/8/7
🔄 更新2026/5/24

fish-speech

开源30k↑+3

github.com/fishaudio/fish-speech

SOTA 开源 TTS,30K+ stars。最先进的开源文本转语音方案,支持高质量语音合成和多语种语音克隆

🎯 语音合成与实时语音交互

#llama#transformer#tts#valle+1
语言Python
🍴 Forks2,589
📅 上线2023/10/10
🔄 更新2026/5/24

sherpa-onnx

开源12k↑+2

github.com/k2-fsa/sherpa-onnx

基于 ONNX 的多平台语音处理引擎,支持语音转文字(ASR)、文字转语音(TTS)、说话人分离、语音增强和 VAD 等功能,可在 Android/iOS/Raspberry Pi/嵌入式设备上运行。(12K+ stars)

🎯 离线语音识别、嵌入式 TTS、语音助手后端、会议转录

#speech-to-text#text-to-speech#onnx#speech+1
语言C++
🍴 Forks1,406
🔄 更新2026/5/24

Stable Diffusion WebUI

开源163k2

github.com/AUTOMATIC1111/stable-diffusion-webui

最流行的 Stable Diffusion Web UI,162,491+ stars。提供直观的图形界面,支持文生图、图生图、ControlNet、LoRA 微调、Inpainting 等核心功能,是 AI 图像生成领域的事实标准工具

🎯 大模型微调与训练、多模态内容理解与生成

#图像生成#Stable Diffusion#Web UI#开源
语言Python
🍴 Forks30,360
🔄 更新2026/5/24