ShowUI

开源多模态 & 视觉1.8k

CVPR 2025 论文,开源端到端视觉-语言-行动模型,专用于 GUI Agent 场景。支持屏幕截图理解和交互操作。1.8K+ stars。

🎯适用场景:GUI Agent 视觉理解、屏幕截图驱动的自动化操作

#vision-language-action#gui-agent#cvpr2025#computer-vision

📥 收录于 2026/6/5

📊 仓库数据

Stars1,849
Forks200
语言Python
更新2026/6/4

优点

  • CVPR 2025 论文质量有保障
  • 端到端 VLA 模型
  • GUI 场景针对性优化

⚠️ 限制

  • 需要 GPU 推理
  • 模型规模较大

🔗 相关工具

pytorch-CycleGAN-and-pix2pix

开源25k

github.com/junyanz/pytorch-CycleGAN-and-pix2pix

基于PyTorch实现的图像到图像转换工具,支持CycleGAN和pix2pix等模型,适用于风格迁移、图像增强等场景。

🎯图像风格迁移、照片转艺术风格、图像增强

#computer-graphics#computer-vision#cyclegan#deep-learning
语言Python
🍴 Forks6,570
🔄 更新2026/6/4
📥 收录2026/5/23

OmniParser

开源25k

github.com/microsoft/omniparser

微软屏幕解析工具,将屏幕元素转化为结构化数据,为纯视觉 GUI Agent 提供输入

🎯机器人控制、仿真与边缘部署

#vision#gui-agent#microsoft#screen
语言Jupyter Notebook
🍴 Forks2,178
🔄 更新2026/6/4
📥 收录2026/5/18

kornia

开源11k

github.com/kornia/kornia

几何计算机视觉库,11K+ stars。面向空间 AI 的几何计算机视觉库,提供 OpenCV 风格的 PyTorch 原生计算机视觉操作

🎯多模态内容理解与生成

#artificial-intelligence#computer-vision#deep-learning#hacktoberfest+1
语言Python
🍴 Forks1,182
🔄 更新2026/6/4
📥 收录2026/5/7

rerun

开源11k1

github.com/rerun-io/rerun

多模态数据可视化 SDK,11K+ stars。用于记录、存储、查询和可视化多模态和多速率数据的开源 SDK,Rust 编写

🎯机器人控制、仿真与边缘部署、多模态内容理解与生成

#computer-vision#cpp#multimodal#python+1
语言Rust
🍴 Forks757
🔄 更新2026/6/4
📥 收录2026/5/7

Mmagic

免费7.4k↑+1

github.com/open-mmlab/mmagic

OpenMMLab 多模态工具箱,8.6K+ stars。多模态高级生成和智能创建工具箱,支持图像生成、视频生成等多种任务

🎯多模态内容理解与生成

#aigc#computer-vision#deep-learning#diffusion+1
语言Jupyter Notebook
🍴 Forks1,099
📅 上线2019/8/23
🔄 更新2026/6/4
📥 收录2026/5/12

Stable Diffusion WebUI

开源163k↑+4

github.com/AUTOMATIC1111/stable-diffusion-webui

最流行的 Stable Diffusion Web UI,162,491+ stars。提供直观的图形界面,支持文生图、图生图、ControlNet、LoRA 微调、Inpainting 等核心功能,是 AI 图像生成领域的事实标准工具

🎯大模型微调与训练、多模态内容理解与生成

#图像生成#Stable Diffusion#Web UI#开源
语言Python
🍴 Forks30,372
🔄 更新2026/6/4
📥 收录2026/4/20