SANA
NVIDIA 高效高分辨率图像合成模型,7.4K+ stars。基于线性 Diffusion Transformer 架构,支持高效高清图像生成,是 NVIDIA 在 AI 图像生成领域的代表项目
🎯适用场景:高效高分辨率图像生成
📊 仓库数据
✅ 优点
- •NVIDIA 官方出品
- •线性 DiT 架构效率高
- •支持高分辨率图像合成
- •Apache-2.0 可商用
⚠️ 限制
- •需要 NVIDIA GPU 加速
- •社区相对较小
- •部分优化仅限 NVIDIA 硬件
🔗 相关工具
LTX-Video
开源⭐ 10kgithub.com/Lightricks/LTX-Video
Lightricks 开源视频生成模型,10K+ stars。支持文生视频和图生视频,基于 Diffusion Transformer 架构,是轻量级高质量视频生成的代表项目
🎯 轻量级文生视频、图生视频生成
Sora 2
付费openai.com/sora
OpenAI 的旗舰级视频生成模型,基于 Diffusion Transformer 架构。支持最长 60 秒视频生成,在物理模拟(流体、光影、碰撞)方面表现卓越。通过 ChatGPT Plus/Pro 订阅可用,是 2026 年质量最高的文生视频模型。
🎯 多模态内容理解与生成
Stable Diffusion WebUI
开源⭐ 163k↑+4github.com/AUTOMATIC1111/stable-diffusion-webui
最流行的 Stable Diffusion Web UI,162,491+ stars。提供直观的图形界面,支持文生图、图生图、ControlNet、LoRA 微调、Inpainting 等核心功能,是 AI 图像生成领域的事实标准工具
🎯 大模型微调与训练、多模态内容理解与生成
ComfyUI
开源⭐ 114k↑+39github.com/comfyanonymous/ComfyUI
节点式 Diffusion 模型 GUI,109,363+ stars。基于节点的工作流编排,可视化连接各处理模块,是最强大的图像生成工作流工具,支持 SDXL、Flux、Stable Cascade 等最新模型
🎯 AI 工作流编排与自动化、多模态内容理解与生成
OpenAI Whisper
开源⭐ 100k↑+27github.com/openai/whisper
OpenAI 开源语音识别模型,99.9K+ stars。支持 99 种语言自动语音识别与翻译,可本地部署保护隐私,广泛用于会议转录、字幕生成等场景
🎯 多语言语音转文字、音频转录、本地私有化语音识别
Deep Live Cam
开源⭐ 93k↑+10github.com/hacksider/Deep-Live-Cam
实时人脸替换工具,91,252+ stars。仅需一张照片即可实现实时视频换脸和一键视频 Deepfake,基于 AI 视觉模型实现高精度面部替换。支持摄像头实时预览和离线视频处理,是 AI 换脸领域最受欢迎的开源项目。
🎯 多模态内容理解与生成