DeepSpeech

开源多模态 & 视觉 › 语音识别 ASR⭐ 27k

DeepSpeech 是 Mozilla 开发的开源语音转文字引擎，基于深度学习技术，支持离线和嵌入式运行。可从树莓派到高性能 GPU 服务器实时运行，是语音识别领域的经典开源项目。26K+ stars。

🎯适用场景：离线语音转文字、嵌入式语音识别、隐私优先的语音应用

#深度学习#Deepspeech#Embedded#机器学习

📥 收录于 2026/6/3

访问工具

📊 仓库数据

Stars26,772

Forks4,083

语言C++

更新2026/7/18

📈 Stars 变化 ↓9 小时 -1· 统计区间 7/17 20:11 → 7/18 05:19（9 小时）

✅ 优点

•完全开源和离线可用
•可在树莓派等嵌入式设备运行
•Mozilla 出品技术可靠
•支持多种语言

⚠️ 限制

•最后推送为 2025 年 6 月更新缓慢
•识别精度不如 Whisper 等现代模型
•社区维护状态不明确

🔗 相关工具

NVIDIA NeMo

开源⭐ 18k↑+1

github.com/NVIDIA-NeMo/NeMo

NVIDIA 可扩展生成式 AI 框架，17K+ stars。专为 LLM、多模态和语音 AI（ASR + TTS）研究者和开发者设计，是 NVIDIA 生态中训练和部署大模型的标准框架

🎯企业级 LLM/语音模型训练、微调与 NVIDIA 栈部署

#大语言模型#多模态#语音 AI#NVIDIA+1

语言Python

🍴 Forks3,506

🔄 更新2026/7/18

📥 收录2026/5/27

OpenAI Whisper

开源⭐ 105k↑+32

github.com/openai/whisper

OpenAI 开源语音识别模型，99.9K+ stars。支持 99 种语言自动语音识别与翻译，可本地部署保护隐私，广泛用于会议转录、字幕生成等场景

🎯多语言语音转文字、音频转录、本地私有化语音识别

#语音识别#多语言#转录

语言Python

🍴 Forks12,777

📅 上线2022/9/17

🔄 更新2026/7/18

📥 收录2026/4/11

Whisper.cpp

开源⭐ 52k↑+7

github.com/ggml-org/whisper.cpp

OpenAI Whisper C/C++ 移植，48,793+ stars。高性能语音识别引擎，将 OpenAI Whisper 移植到 C/C++，支持 99 种语言的语音转文字，CPU 即可高效运行

🎯多模态内容理解与生成

#语音识别#Whisper#C++#跨平台

语言C++

🍴 Forks5,821

📅 上线2022/9/26

🔄 更新2026/7/18

📥 收录2026/4/20

LocalAI

开源⭐ 48k↑+16

github.com/mudler/LocalAI

开源本地 AI 引擎，45,607+ stars。完全兼容 OpenAI API 的本地 AI 推理引擎，支持 LLM、语音识别、图像生成等多种模型，数据完全本地处理保护隐私

🎯生产环境模型推理服务、多模态内容理解与生成

#本地部署#隐私保护#OpenAI 兼容#多模型

语言Go

🍴 Forks4,251

📅 上线2023/3/19

🔄 更新2026/7/18

📥 收录2026/4/20

Meetily

开源⭐ 25k↑+48

github.com/Zackriya-Solutions/meetily

隐私优先的 AI 会议助手，支持 Parakeet/Whisper 实时转录，速度比传统方案快 4 倍。本地优先设计，支持会议纪要提取、关键词标记和行动项追踪

🎯AI 会议纪要自动生成、实时语音转录、行动项追踪与管理

#会议助手#语音转文字#隐私优先#实时转录

语言Rust

🍴 Forks2,533

📅 上线2025/6/15

🔄 更新2026/7/18

📥 收录2026/6/1

Faster Whisper

开源⭐ 24k↑+8

github.com/SYSTRAN/faster-whisper

基于 CTranslate2 的加速版 Whisper 语音转文字引擎，支持多种量化格式和 GPU 加速，提供高性能语音识别和转录能力

🎯高性能语音识别和转录

#speech-to-text#whisper#推理#量化

语言Python

🍴 Forks1,986

🔄 更新2026/7/18

📥 收录2026/5/31

← 浏览全部 1309 个工具