HunyuanImage 3.0
混元图像 3.0,7.5K+ stars。腾讯混元原生多模态图像生成模型,强大的中文图像生成能力
🎯适用场景:多模态内容理解与生成
📥 收录于 2026/5/13
📊 仓库数据
✅ 优点
- •多模态输入输出支持
- •中文支持良好
- •3.1K+ stars
- •开源免费
⚠️ 限制
- •需要 Python 运行环境
- •通常需要 GPU 算力
- •文档与社区支持因项目而异
🔗 相关工具
DiffSynth-Studio
github.com/modelscope/DiffSynth-Studio
魔搭社区出品的扩散模型创意工作室,12K+ stars。提供强大的扩散模型 GUI、API 和后端,支持图像生成、视频生成和多模态内容创作。基于 ModelScope 生态,是中国开源 AI 生成工具的重要项目
🎯多模态内容理解与生成
VAR-Visual Autoregressive
github.com/FoundationVision/VAR
NeurIPS 2024 最佳论文奖,视觉自回归图像生成模型,8.7K+ stars。GPT 式自回归建模超越 Diffusion 的图像生成方法,支持超高清图像生成的 SOTA 方案
🎯高质量图像生成、视觉内容创作
PromptEnhancer
github.com/Hunyuan-PromptEnhancer/PromptEnhancer
CVPR 2026 收录的提示词增强工具,将简单提示词重写为清晰结构化版本,显著提升图像生成质量。由腾讯混元团队开发,是文生图/图像编辑流水线中的提示词优化利器。3.7K stars
🎯多模态内容理解与生成
Ideogram 2.0
ideogram.ai
专注于文字排版和 Logo 设计的 AI 图像生成平台。2.0 版本在文本渲染、品牌一致性和矢量图输出方面显著提升。提供商用和开源混合模式,是设计师进行品牌视觉、海报设计和 Logo 创作的高效工具。
🎯多模态内容理解与生成
Deep Live Cam
github.com/hacksider/Deep-Live-Cam
实时人脸替换工具,91,252+ stars。仅需一张照片即可实现实时视频换脸和一键视频 Deepfake,基于 AI 视觉模型实现高精度面部替换。支持摄像头实时预览和离线视频处理,是 AI 换脸领域最受欢迎的开源项目。
🎯多模态内容理解与生成
openpilot
github.com/commaai/openpilot
自动驾驶操作系统,60,671+ stars。comma.ai 开源的高级驾驶辅助系统(ADAS),支持 275+ 款车型的自适应巡航、车道保持等自动驾驶辅助功能
🎯多模态内容理解与生成