OmniParser

开源AI Agent › GUI/Computer Use⭐ 25k↑+4

微软屏幕解析工具，将屏幕元素转化为结构化数据，为纯视觉 GUI Agent 提供输入

🎯适用场景：机器人控制、仿真与边缘部署

#vision#gui-agent#microsoft#screen

📥 收录于 2026/5/18

访问工具 📖 官方文档

📊 仓库数据

Stars25,030

Forks2,200

语言Jupyter Notebook

协议MIT

更新2026/7/10

📈 Stars 变化 ↑12 小时 +4· 统计区间 7/10 12:08 → 7/11 00:11（12 小时）

✅ 优点

•屏幕解析精度高
•支持 GUI Agent
•微软出品

⚠️ 限制

•仅 Windows 最佳支持
•需要 GPU

🔗 相关工具

ShowUI

开源⭐ 1.9k

github.com/showlab/ShowUI

CVPR 2025 论文，开源端到端视觉-语言-行动模型，专用于 GUI Agent 场景。支持屏幕截图理解和交互操作。1.8K+ stars。

🎯GUI Agent 视觉理解、屏幕截图驱动的自动化操作

#vision-language-action#gui-agent#cvpr2025#计算机视觉

语言Python

🍴 Forks140

🔄 更新2026/7/7

📥 收录2026/6/5

Apache Airflow

开源⭐ 46k↑+6

github.com/apache/airflow

Apache 顶级项目，AI 工作流编排的事实标准，45K+ stars。以 DAG 方式定义、调度和监控复杂数据处理管道——支持 ML 训练管道编排、模型推理任务调度、数据 ETL 等，是生产级 AI 基础设施的核心组件

🎯分布式 ML 训练与推理调度、AI 数据管道编排

#工作流编排#任务调度#ML 管道#Apache

语言Python

🍴 Forks17,377

🔄 更新2026/7/11

📥 收录2026/5/21

Agent S

开源⭐ 12k↑+4

github.com/simular-ai/Agent-S

开源的类人计算机操作 Agent 框架，11K+ stars。结合计算机界面理解、上下文强化学习和记忆检索，让 Agent 像人类一样使用电脑，支持跨平台桌面自动化操作

🎯多模态内容理解与生成

#GUI Agent#计算机操作#强化学习#跨平台

语言Python

🍴 Forks1,406

🔄 更新2026/7/10

📥 收录2026/5/19

Bytebot

开源⭐ 11k↑+1

github.com/bytebot-ai/bytebot

自托管 AI 桌面 Agent，11K+ stars。通过自然语言命令自动化完成电脑操作任务，是本地化 Computer Use Agent 的新选择

🎯本地化桌面任务自动化，如文件操作、浏览器自动化、批量数据处理

#桌面 Agent#自托管#自然语言#自动化

语言TypeScript

🍴 Forks1,484

🔄 更新2026/7/10

📥 收录2026/5/23

RobotGo

开源⭐ 11k

github.com/go-vgo/robotgo

Go 原生跨平台 RPA 自动化工具，支持 GUI 控制、屏幕截图、键鼠模拟和窗口操作，可与 AI Agent 结合实现 Computer Use 场景的自动化交互

🎯AI Agent 的 Computer Use 底层 GUI 操作、跨平台桌面自动化测试

#rpa#gui-automation#Computer Use#跨平台

语言Go

🍴 Forks958

🔄 更新2026/7/10

📥 收录2026/6/4

Microsoft Fara-7B

开源⭐ 6.0k↑+3

github.com/microsoft/fara

微软开源的高效 Computer Use Agent 模型，仅 7B 参数即可实现桌面操作。在 Computer Use 基准测试中表现优异，是轻量化 GUI Agent 的新选择，5.2K stars

🎯轻量级桌面操作自动化，适合单 GPU 即可部署的 Computer Use Agent 场景

#微软#Computer Use#7B#轻量 Agent

语言Python

🍴 Forks582

🔄 更新2026/7/10

📥 收录2026/5/27

← 浏览全部 1267 个工具