FunClip

开源多模态 & 视觉 › 语音识别 ASR⭐ 6.1k↑+5

开源、精准易用的视频语音识别与剪辑工具，集成 LLM 的 AI 剪辑功能。

🎯适用场景：视频创作者快速提取字幕、生成精彩片段剪辑

#video#speech-recognition#clip#llm#audio

📥 收录于 2026/6/15

访问工具

📊 仓库数据

Stars6,079

Forks729

语言Python

更新2026/7/29

📈 Stars 变化 ↑10 小时 +5· 统计区间 7/29 07:14 → 7/29 17:10（10 小时）

✅ 优点

•语音识别准确率高
•LLM 驱动的自动剪辑，效率高

⚠️ 限制

•对硬件有一定要求
•长视频处理耗时较长

🔗 相关工具

Silero VAD

开源⭐ 9.8k↑+14

github.com/snakers4/silero-vad

企业级预训练语音活动检测器，轻量高效。支持流式和离线模式，可精确检测语音起止点，是语音识别、会议转录、客服质检等场景的基础设施

🎯语音识别前置处理、会议/客服音频分割、实时语音流检测

#voice-activity-detection#speech-processing#audio#whisper+1

Argmax Speech AI

开源⭐ 6.3k↑+2

github.com/argmaxinc/argmax-oss-swift

Apple Silicon 上的设备端语音 AI，支持语音识别、说话人分离、TTS 等。Swift 编写，6.3K stars，支持 WhisperKit。

🎯在 macOS/iOS 设备上实现离线语音识别、转写和 TTS

#speech-recognition#apple-silicon#whisper#tts+1

OpenAI Whisper

开源⭐ 106k↑+56

github.com/openai/whisper

OpenAI 开源语音识别模型，99.9K+ stars。支持 99 种语言自动语音识别与翻译，可本地部署保护隐私，广泛用于会议转录、字幕生成等场景

🎯多语言语音转文字、音频转录、本地私有化语音识别

Whisper.cpp

开源⭐ 52k↑+14

github.com/ggml-org/whisper.cpp

OpenAI Whisper C/C++ 移植，48,793+ stars。高性能语音识别引擎，将 OpenAI Whisper 移植到 C/C++，支持 99 种语言的语音转文字，CPU 即可高效运行

🎯多模态内容理解与生成

#语音识别#Whisper#C++#跨平台

LocalAI

开源⭐ 48k↑+6

github.com/mudler/LocalAI

开源本地 AI 引擎，45,607+ stars。完全兼容 OpenAI API 的本地 AI 推理引擎，支持 LLM、语音识别、图像生成等多种模型，数据完全本地处理保护隐私

🎯生产环境模型推理服务、多模态内容理解与生成

#本地部署#隐私保护#OpenAI 兼容#多模型

Meetily

开源⭐ 27k↑+68

github.com/Zackriya-Solutions/meetily

隐私优先的 AI 会议助手，支持 Parakeet/Whisper 实时转录，速度比传统方案快 4 倍。本地优先设计，支持会议纪要提取、关键词标记和行动项追踪

🎯AI 会议纪要自动生成、实时语音转录、行动项追踪与管理

#会议助手#语音转文字#隐私优先#实时转录