YOLOX

开源多模态 & 视觉10k

YOLOX 是旷视科技推出的高性能无锚框目标检测模型,性能超越 YOLOv3~v5,支持 MegEngine、ONNX、TensorRT、ncnn 和 OpenVINO 等多种推理框架部署

🎯适用场景:计算机视觉 / 目标检测

#deep-learning#megengine#ncnn#object-detection#onnx

📊 仓库数据

Stars10,466
Forks1,046
语言Python
上线2025/6/8
更新2025/6/8

优点

  • 高性能检测
  • 多种框架支持
  • ONNX/TensorRT 优化

⚠️ 限制

  • 项目维护已放缓
  • 较新版本可能不兼容

🔗 相关工具

MockingBird

开源37k↑+2

github.com/babysor/MockingBird

5 秒克隆声音,37K+ stars。5 秒克隆声音生成任意语音的实时语音合成工具,支持多语种语音克隆

🎯 语音合成与实时语音交互

#ai#deep-learning#pytorch#speech+1
语言Python
🍴 Forks5,218
📅 上线2021/8/7
🔄 更新2026/5/24

pytorch-CycleGAN-and-pix2pix

开源25k

github.com/junyanz/pytorch-CycleGAN-and-pix2pix

基于PyTorch实现的图像到图像转换工具,支持CycleGAN和pix2pix等模型,适用于风格迁移、图像增强等场景。

🎯 图像风格迁移、照片转艺术风格、图像增强

#computer-graphics#computer-vision#cyclegan#deep-learning
语言Python
🍴 Forks6,573
🔄 更新2026/5/24

sherpa-onnx

开源12k↑+2

github.com/k2-fsa/sherpa-onnx

基于 ONNX 的多平台语音处理引擎,支持语音转文字(ASR)、文字转语音(TTS)、说话人分离、语音增强和 VAD 等功能,可在 Android/iOS/Raspberry Pi/嵌入式设备上运行。(12K+ stars)

🎯 离线语音识别、嵌入式 TTS、语音助手后端、会议转录

#speech-to-text#text-to-speech#onnx#speech+1
语言C++
🍴 Forks1,406
🔄 更新2026/5/24

kornia

开源11k1

github.com/kornia/kornia

几何计算机视觉库,11K+ stars。面向空间 AI 的几何计算机视觉库,提供 OpenCV 风格的 PyTorch 原生计算机视觉操作

🎯 多模态内容理解与生成

#artificial-intelligence#computer-vision#deep-learning#hacktoberfest+1
语言Python
🍴 Forks1,181
🔄 更新2026/5/24

Mmagic

免费7.4k1

github.com/open-mmlab/mmagic

OpenMMLab 多模态工具箱,8.6K+ stars。多模态高级生成和智能创建工具箱,支持图像生成、视频生成等多种任务

🎯 多模态内容理解与生成

#aigc#computer-vision#deep-learning#diffusion+1
语言Jupyter Notebook
🍴 Forks1,100
📅 上线2019/8/23
🔄 更新2026/5/24

Stable Diffusion WebUI

开源163k2

github.com/AUTOMATIC1111/stable-diffusion-webui

最流行的 Stable Diffusion Web UI,162,491+ stars。提供直观的图形界面,支持文生图、图生图、ControlNet、LoRA 微调、Inpainting 等核心功能,是 AI 图像生成领域的事实标准工具

🎯 大模型微调与训练、多模态内容理解与生成

#图像生成#Stable Diffusion#Web UI#开源
语言Python
🍴 Forks30,360
🔄 更新2026/5/24