Silero VAD
企业级预训练语音活动检测器,轻量高效。支持流式和离线模式,可精确检测语音起止点,是语音识别、会议转录、客服质检等场景的基础设施
🎯适用场景:语音识别前置处理、会议/客服音频分割、实时语音流检测
📊 仓库数据
✅ 优点
- •轻量快速推理,CPU 即可运行
- •精确的语音起止点检测
- •兼容 Whisper 等语音模型
- •企业级预训练模型
⚠️ 限制
- •仅做 VAD 不做语音识别
- •嘈杂环境效果有限
- •需配合其他语音模型使用
🔗 相关工具
FFmpeg
github.com/FFmpeg/FFmpeg
FFmpeg 多媒体处理框架的增强版本,60K+ stars。支持音视频转码、剪辑、滤镜、流媒体等全功能,是视频 AI 处理和多媒体应用的底层基础设施
🎯AI 视频预处理、音视频转码剪辑、多媒体流处理
Mpv
github.com/mpv-player/mpv
命令行视频播放器,35K+ stars。极简设计、高度可定制、支持几乎所有音视频格式,是本地视频处理和 AI 视频分析的理想播放工具
🎯本地视频播放、AI 视频分析预览、多媒体格式转换
fish-speech
github.com/fishaudio/fish-speech
SOTA 开源 TTS,30K+ stars。最先进的开源文本转语音方案,支持高质量语音合成和多语种语音克隆
🎯语音合成与实时语音交互
PPT Master
github.com/hugohe3/ppt-master
AI 从文档生成可编辑 PowerPoint 的工具,22.7K+ stars。支持原生形状和动画、演讲者备注音频旁白、可跟随自有 .pptx 模板,而非简单的幻灯片图片导出
🎯文档转 PPT、自动化演示文稿生成
Faster Whisper
github.com/SYSTRAN/faster-whisper
基于 CTranslate2 的加速版 Whisper 语音转文字引擎,支持多种量化格式和 GPU 加速,提供高性能语音识别和转录能力
🎯高性能语音识别和转录
CosyVoice
github.com/FunAudioLLM/CosyVoice
阿里 FunAudioLLM 多语言语音生成大模型,提供推理、训练和部署全栈能力,支持跨语种合成和声音克隆。
🎯多语言语音合成、声音克隆、实时语音交互