ShowUI
CVPR 2025 论文,开源端到端视觉-语言-行动模型,专用于 GUI Agent 场景。支持屏幕截图理解和交互操作。1.8K+ stars。
🎯适用场景:GUI Agent 视觉理解、屏幕截图驱动的自动化操作
📥 收录于 2026/6/5
📊 仓库数据
✅ 优点
- •CVPR 2025 论文质量有保障
- •端到端 VLA 模型
- •GUI 场景针对性优化
⚠️ 限制
- •需要 GPU 推理
- •模型规模较大
🔗 相关工具
pytorch-CycleGAN-and-pix2pix
github.com/junyanz/pytorch-CycleGAN-and-pix2pix
基于PyTorch实现的图像到图像转换工具,支持CycleGAN和pix2pix等模型,适用于风格迁移、图像增强等场景。
🎯图像风格迁移、照片转艺术风格、图像增强
OmniParser
github.com/microsoft/omniparser
微软屏幕解析工具,将屏幕元素转化为结构化数据,为纯视觉 GUI Agent 提供输入
🎯机器人控制、仿真与边缘部署
kornia
github.com/kornia/kornia
几何计算机视觉库,11K+ stars。面向空间 AI 的几何计算机视觉库,提供 OpenCV 风格的 PyTorch 原生计算机视觉操作
🎯多模态内容理解与生成
rerun
github.com/rerun-io/rerun
多模态数据可视化 SDK,11K+ stars。用于记录、存储、查询和可视化多模态和多速率数据的开源 SDK,Rust 编写
🎯机器人控制、仿真与边缘部署、多模态内容理解与生成
Mmagic
github.com/open-mmlab/mmagic
OpenMMLab 多模态工具箱,8.6K+ stars。多模态高级生成和智能创建工具箱,支持图像生成、视频生成等多种任务
🎯多模态内容理解与生成
Stable Diffusion WebUI
github.com/AUTOMATIC1111/stable-diffusion-webui
最流行的 Stable Diffusion Web UI,162,491+ stars。提供直观的图形界面,支持文生图、图生图、ControlNet、LoRA 微调、Inpainting 等核心功能,是 AI 图像生成领域的事实标准工具
🎯大模型微调与训练、多模态内容理解与生成