YOLOX
YOLOX 是旷视科技推出的高性能无锚框目标检测模型,性能超越 YOLOv3~v5,支持 MegEngine、ONNX、TensorRT、ncnn 和 OpenVINO 等多种推理框架部署
🎯适用场景:计算机视觉 / 目标检测
📊 仓库数据
✅ 优点
- •高性能检测
- •多种框架支持
- •ONNX/TensorRT 优化
⚠️ 限制
- •项目维护已放缓
- •较新版本可能不兼容
🔗 相关工具
MockingBird
开源⭐ 37k↑+2github.com/babysor/MockingBird
5 秒克隆声音,37K+ stars。5 秒克隆声音生成任意语音的实时语音合成工具,支持多语种语音克隆
🎯 语音合成与实时语音交互
pytorch-CycleGAN-and-pix2pix
开源⭐ 25kgithub.com/junyanz/pytorch-CycleGAN-and-pix2pix
基于PyTorch实现的图像到图像转换工具,支持CycleGAN和pix2pix等模型,适用于风格迁移、图像增强等场景。
🎯 图像风格迁移、照片转艺术风格、图像增强
sherpa-onnx
开源⭐ 12k↑+2github.com/k2-fsa/sherpa-onnx
基于 ONNX 的多平台语音处理引擎,支持语音转文字(ASR)、文字转语音(TTS)、说话人分离、语音增强和 VAD 等功能,可在 Android/iOS/Raspberry Pi/嵌入式设备上运行。(12K+ stars)
🎯 离线语音识别、嵌入式 TTS、语音助手后端、会议转录
kornia
开源⭐ 11k↓1github.com/kornia/kornia
几何计算机视觉库,11K+ stars。面向空间 AI 的几何计算机视觉库,提供 OpenCV 风格的 PyTorch 原生计算机视觉操作
🎯 多模态内容理解与生成
Mmagic
免费⭐ 7.4k↓1github.com/open-mmlab/mmagic
OpenMMLab 多模态工具箱,8.6K+ stars。多模态高级生成和智能创建工具箱,支持图像生成、视频生成等多种任务
🎯 多模态内容理解与生成
Stable Diffusion WebUI
开源⭐ 163k↓2github.com/AUTOMATIC1111/stable-diffusion-webui
最流行的 Stable Diffusion Web UI,162,491+ stars。提供直观的图形界面,支持文生图、图生图、ControlNet、LoRA 微调、Inpainting 等核心功能,是 AI 图像生成领域的事实标准工具
🎯 大模型微调与训练、多模态内容理解与生成