Silero VAD

开源多模态 & 视觉9.2k

企业级预训练语音活动检测器,轻量高效。支持流式和离线模式,可精确检测语音起止点,是语音识别、会议转录、客服质检等场景的基础设施

🎯适用场景:语音识别前置处理、会议/客服音频分割、实时语音流检测

#voice-activity-detection#speech-processing#audio#whisper#tts

📥 收录于 2026/6/4

📊 仓库数据

Stars9,221
Forks779
语言Python
上线2021/6/1
更新2026/6/3

优点

  • 轻量快速推理,CPU 即可运行
  • 精确的语音起止点检测
  • 兼容 Whisper 等语音模型
  • 企业级预训练模型

⚠️ 限制

  • 仅做 VAD 不做语音识别
  • 嘈杂环境效果有限
  • 需配合其他语音模型使用

🔗 相关工具

FFmpeg

开源61k↑+2

github.com/FFmpeg/FFmpeg

FFmpeg 多媒体处理框架的增强版本,60K+ stars。支持音视频转码、剪辑、滤镜、流媒体等全功能,是视频 AI 处理和多媒体应用的底层基础设施

🎯AI 视频预处理、音视频转码剪辑、多媒体流处理

#audio#c#ffmpeg#fft+1
语言C
🍴 Forks13,874
🔄 更新2026/6/3
📥 收录2026/5/22

Mpv

开源35k↑+5

github.com/mpv-player/mpv

命令行视频播放器,35K+ stars。极简设计、高度可定制、支持几乎所有音视频格式,是本地视频处理和 AI 视频分析的理想播放工具

🎯本地视频播放、AI 视频分析预览、多媒体格式转换

#audio#c#ffmpeg#mplayer+1
语言C
🍴 Forks3,366
🔄 更新2026/6/3
📥 收录2026/5/22

fish-speech

开源31k↑+2

github.com/fishaudio/fish-speech

SOTA 开源 TTS,30K+ stars。最先进的开源文本转语音方案,支持高质量语音合成和多语种语音克隆

🎯语音合成与实时语音交互

#llama#transformer#tts#valle+1
语言Python
🍴 Forks2,611
📅 上线2023/10/10
🔄 更新2026/6/3
📥 收录2026/5/20

PPT Master

开源24k↑+15

github.com/hugohe3/ppt-master

AI 从文档生成可编辑 PowerPoint 的工具,22.7K+ stars。支持原生形状和动画、演讲者备注音频旁白、可跟随自有 .pptx 模板,而非简单的幻灯片图片导出

🎯文档转 PPT、自动化演示文稿生成

#powerpoint#presentation#document-conversion#audio
语言Python
🍴 Forks2,200
🔄 更新2026/6/3
📥 收录2026/5/31

Faster Whisper

开源23k↑+5

github.com/SYSTRAN/faster-whisper

基于 CTranslate2 的加速版 Whisper 语音转文字引擎,支持多种量化格式和 GPU 加速,提供高性能语音识别和转录能力

🎯高性能语音识别和转录

#speech-to-text#whisper#inference#quantization
语言Python
🍴 Forks1,915
🔄 更新2026/6/3
📥 收录2026/5/31

CosyVoice

开源21k↑+3

github.com/FunAudioLLM/CosyVoice

阿里 FunAudioLLM 多语言语音生成大模型,提供推理、训练和部署全栈能力,支持跨语种合成和声音克隆。

🎯多语言语音合成、声音克隆、实时语音交互

#text-to-speech#voice-cloning#tts#multi-lingual
语言Python
🍴 Forks2,476
🔄 更新2026/6/3
📥 收录2026/5/31