VAR-Visual Autoregressive

开源多模态 & 视觉 › 图像生成⭐ 8.7k

NeurIPS 2024 最佳论文奖，视觉自回归图像生成模型，8.7K+ stars。GPT 式自回归建模超越 Diffusion 的图像生成方法，支持超高清图像生成的 SOTA 方案

🎯适用场景：高质量图像生成、视觉内容创作

#图像生成#自回归模型#NeurIPS 2024#视觉生成

📥 收录于 2026/5/24

访问工具

📊 仓库数据

Stars8,706

Forks570

语言Jupyter Notebook

更新2026/7/9

✅ 优点

•NeurIPS 2024 最佳论文奖
•自回归方法超越 Diffusion
•超高清图像生成能力

⚠️ 限制

•训练计算量大
•生成速度较慢
•需要较强 GPU 资源

🔗 相关工具

DiffSynth-Studio

开源⭐ 13k↓-1

github.com/modelscope/DiffSynth-Studio

魔搭社区出品的扩散模型创意工作室，12K+ stars。提供强大的扩散模型 GUI、API 和后端，支持图像生成、视频生成和多模态内容创作。基于 ModelScope 生态，是中国开源 AI 生成工具的重要项目

🎯多模态内容理解与生成

#扩散模型#图像生成#视频生成#创意工具

语言Python

🍴 Forks1,246

🔄 更新2026/7/10

📥 收录2026/6/4

PromptEnhancer

开源⭐ 3.7k↑+1

github.com/Hunyuan-PromptEnhancer/PromptEnhancer

CVPR 2026 收录的提示词增强工具，将简单提示词重写为清晰结构化版本，显著提升图像生成质量。由腾讯混元团队开发，是文生图/图像编辑流水线中的提示词优化利器。3.7K stars

🎯多模态内容理解与生成

#提示词增强#CVPR 2026#图像生成#混元

语言Python

🍴 Forks324

📅 上线2025/1/1

🔄 更新2026/7/10

📥 收录2026/6/5

HunyuanImage 3.0

免费⭐ 3.2k↑+1

github.com/tencent-hunyuan/hunyuanimage-3.0

混元图像 3.0，7.5K+ stars。腾讯混元原生多模态图像生成模型，强大的中文图像生成能力

🎯多模态内容理解与生成

#图像生成#native-multimodal-model

语言Python

🍴 Forks169

📅 上线2025/9/27

🔄 更新2026/7/10

📥 收录2026/5/13

Ideogram 2.0

免费+付费

ideogram.ai

专注于文字排版和 Logo 设计的 AI 图像生成平台。2.0 版本在文本渲染、品牌一致性和矢量图输出方面显著提升。提供商用和开源混合模式，是设计师进行品牌视觉、海报设计和 Logo 创作的高效工具。

🎯多模态内容理解与生成

#图像生成#Logo 设计#文字排版#品牌设计+1

📥 收录2026/4/22

Deep Live Cam

开源⭐ 95k↑+11

github.com/hacksider/Deep-Live-Cam

实时人脸替换工具，91,252+ stars。仅需一张照片即可实现实时视频换脸和一键视频 Deepfake，基于 AI 视觉模型实现高精度面部替换。支持摄像头实时预览和离线视频处理，是 AI 换脸领域最受欢迎的开源项目。

🎯多模态内容理解与生成

#Deepfake#人脸替换#计算机视觉#实时

语言Python

🍴 Forks13,828

📅 上线2024/3/15

🔄 更新2026/7/10

📥 收录2026/4/21

openpilot

开源⭐ 63k↑+7

github.com/commaai/openpilot

自动驾驶操作系统，60,671+ stars。comma.ai 开源的高级驾驶辅助系统（ADAS），支持 275+ 款车型的自适应巡航、车道保持等自动驾驶辅助功能

🎯多模态内容理解与生成

#自动驾驶#ADAS#汽车#计算机视觉

语言Python

🍴 Forks11,153

📅 上线2016/11/24

🔄 更新2026/7/10

📥 收录2026/4/20

← 浏览全部 1267 个工具