SANA

开源多模态 & 视觉7.4k

NVIDIA 高效高分辨率图像合成模型,7.4K+ stars。基于线性 Diffusion Transformer 架构,支持高效高清图像生成,是 NVIDIA 在 AI 图像生成领域的代表项目

🎯适用场景:高效高分辨率图像生成

#图像合成#Diffusion Transformer#NVIDIA#高分辨率

📊 仓库数据

Stars7,445
Forks600
语言Python
协议Apache-2.0
更新2026/5/24

优点

  • NVIDIA 官方出品
  • 线性 DiT 架构效率高
  • 支持高分辨率图像合成
  • Apache-2.0 可商用

⚠️ 限制

  • 需要 NVIDIA GPU 加速
  • 社区相对较小
  • 部分优化仅限 NVIDIA 硬件

🔗 相关工具

LTX-Video

开源10k

github.com/Lightricks/LTX-Video

Lightricks 开源视频生成模型,10K+ stars。支持文生视频和图生视频,基于 Diffusion Transformer 架构,是轻量级高质量视频生成的代表项目

🎯 轻量级文生视频、图生视频生成

#视频生成#图生视频#Diffusion Transformer#轻量化
语言Python
🍴 Forks1,200
🔄 更新2026/5/24

Sora 2

付费

openai.com/sora

OpenAI 的旗舰级视频生成模型,基于 Diffusion Transformer 架构。支持最长 60 秒视频生成,在物理模拟(流体、光影、碰撞)方面表现卓越。通过 ChatGPT Plus/Pro 订阅可用,是 2026 年质量最高的文生视频模型。

🎯 多模态内容理解与生成

#视频生成#文生视频#商用#Diffusion Transformer+1
🔄 更新2026/4/30

Stable Diffusion WebUI

开源163k↑+4

github.com/AUTOMATIC1111/stable-diffusion-webui

最流行的 Stable Diffusion Web UI,162,491+ stars。提供直观的图形界面,支持文生图、图生图、ControlNet、LoRA 微调、Inpainting 等核心功能,是 AI 图像生成领域的事实标准工具

🎯 大模型微调与训练、多模态内容理解与生成

#图像生成#Stable Diffusion#Web UI#开源
语言Python
🍴 Forks30,360
🔄 更新2026/5/24

ComfyUI

开源114k↑+39

github.com/comfyanonymous/ComfyUI

节点式 Diffusion 模型 GUI,109,363+ stars。基于节点的工作流编排,可视化连接各处理模块,是最强大的图像生成工作流工具,支持 SDXL、Flux、Stable Cascade 等最新模型

🎯 AI 工作流编排与自动化、多模态内容理解与生成

#节点式#工作流#图像生成#开源
语言Python
🍴 Forks13,376
🔄 更新2026/5/24

OpenAI Whisper

开源100k↑+27

github.com/openai/whisper

OpenAI 开源语音识别模型,99.9K+ stars。支持 99 种语言自动语音识别与翻译,可本地部署保护隐私,广泛用于会议转录、字幕生成等场景

🎯 多语言语音转文字、音频转录、本地私有化语音识别

#语音识别#多语言#转录
语言Python
🍴 Forks12,292
📅 上线2022/9/16
🔄 更新2026/5/24

Deep Live Cam

开源93k↑+10

github.com/hacksider/Deep-Live-Cam

实时人脸替换工具,91,252+ stars。仅需一张照片即可实现实时视频换脸和一键视频 Deepfake,基于 AI 视觉模型实现高精度面部替换。支持摄像头实时预览和离线视频处理,是 AI 换脸领域最受欢迎的开源项目。

🎯 多模态内容理解与生成

#Deepfake#人脸替换#计算机视觉#实时
语言Python
🍴 Forks13,584
📅 上线2024/3/15
🔄 更新2026/5/24