Ai Audio Datasets

开源多模态 & 视觉 › 语音识别 ASR⭐ 956

AI Audio Datasets 是汇总多种音频数据集的开源项目，涵盖语音识别、音乐分类、环境音检测等多模态音频任务。为音频 AI 研究提供数据基础。

🎯适用场景：音频 AI 训练数据收集、语音识别研究

#AIGC#人工智能#Audio#Audio-effect

📥 收录于 2026/6/3

访问工具

📊 仓库数据

Stars956

Forks99

语言Unknown

更新2026/7/17

✅ 优点

•多领域音频数据集汇总
•开源数据便于研究
•涵盖多种音频任务

⚠️ 限制

•数据质量参差不齐
•需要自行清洗和标准化

🔗 相关工具

OpenAI Whisper

开源⭐ 105k↑+73

github.com/openai/whisper

OpenAI 开源语音识别模型，99.9K+ stars。支持 99 种语言自动语音识别与翻译，可本地部署保护隐私，广泛用于会议转录、字幕生成等场景

🎯多语言语音转文字、音频转录、本地私有化语音识别

#语音识别#多语言#转录

语言Python

🍴 Forks12,786

📅 上线2022/9/17

🔄 更新2026/7/18

📥 收录2026/4/11

Whisper.cpp

开源⭐ 52k↑+33

github.com/ggml-org/whisper.cpp

OpenAI Whisper C/C++ 移植，48,793+ stars。高性能语音识别引擎，将 OpenAI Whisper 移植到 C/C++，支持 99 种语言的语音转文字，CPU 即可高效运行

🎯多模态内容理解与生成

#语音识别#Whisper#C++#跨平台

语言C++

🍴 Forks5,823

📅 上线2022/9/26

🔄 更新2026/7/18

📥 收录2026/4/20

LocalAI

开源⭐ 48k↑+37

github.com/mudler/LocalAI

开源本地 AI 引擎，45,607+ stars。完全兼容 OpenAI API 的本地 AI 推理引擎，支持 LLM、语音识别、图像生成等多种模型，数据完全本地处理保护隐私

🎯生产环境模型推理服务、多模态内容理解与生成

#本地部署#隐私保护#OpenAI 兼容#多模型

语言Go

🍴 Forks4,254

📅 上线2023/3/19

🔄 更新2026/7/18

📥 收录2026/4/20

DeepSpeech

开源⭐ 27k↓-1

github.com/mozilla/DeepSpeech

DeepSpeech 是 Mozilla 开发的开源语音转文字引擎，基于深度学习技术，支持离线和嵌入式运行。可从树莓派到高性能 GPU 服务器实时运行，是语音识别领域的经典开源项目。26K+ stars。

🎯离线语音转文字、嵌入式语音识别、隐私优先的语音应用

#深度学习#Deepspeech#Embedded#机器学习

语言C++

🍴 Forks4,083

🔄 更新2026/7/18

📥 收录2026/6/3

Meetily

开源⭐ 25k↑+171

github.com/Zackriya-Solutions/meetily

隐私优先的 AI 会议助手，支持 Parakeet/Whisper 实时转录，速度比传统方案快 4 倍。本地优先设计，支持会议纪要提取、关键词标记和行动项追踪

🎯AI 会议纪要自动生成、实时语音转录、行动项追踪与管理

#会议助手#语音转文字#隐私优先#实时转录

语言Rust

🍴 Forks2,549

📅 上线2025/6/15

🔄 更新2026/7/18

📥 收录2026/6/1

Faster Whisper

开源⭐ 24k↑+28

github.com/SYSTRAN/faster-whisper

基于 CTranslate2 的加速版 Whisper 语音转文字引擎，支持多种量化格式和 GPU 加速，提供高性能语音识别和转录能力

🎯高性能语音识别和转录

#speech-to-text#whisper#推理#量化

语言Python

🍴 Forks1,986

🔄 更新2026/7/18

📥 收录2026/5/31

← 浏览全部 1318 个工具