TuriX-CUA

基于 Qwen3-VL 多模态视觉模型的开源计算机使用 Agent 框架,支持浏览器自动化操作和 GUI 控制,集成 MCP 协议,是 Computer-Use Agent 领域的新兴方案。

🎯适用场景:AI驱动的桌面和浏览器GUI自动化操作,适合需要跨平台计算机使用场景的Agent应用

#计算机使用#GUI Agent#多模态#Qwen#桌面自动化

📥 收录于 2026/6/9

📊 仓库数据

Stars3,052
Forks308
语言Python
协议MIT
更新2026/6/9

优点

  • 基于Qwen3-VL多模态视觉模型,理解GUI能力强
  • MCP协议集成便于扩展
  • MIT开源许可可自由使用

⚠️ 限制

  • 项目较新社区生态小
  • 依赖Qwen3-VL模型的视觉理解能力

🔗 相关工具

Agent S

开源12k

github.com/simular-ai/Agent-S

开源的类人计算机操作 Agent 框架,11K+ stars。结合计算机界面理解、上下文强化学习和记忆检索,让 Agent 像人类一样使用电脑,支持跨平台桌面自动化操作

🎯多模态内容理解与生成

#GUI Agent#计算机操作#强化学习#跨平台
语言Python
🍴 Forks1,391
🔄 更新2026/6/9
📥 收录2026/5/19

Apache Airflow

开源46k+2

github.com/apache/airflow

Apache 顶级项目,AI 工作流编排的事实标准,45K+ stars。以 DAG 方式定义、调度和监控复杂数据处理管道——支持 ML 训练管道编排、模型推理任务调度、数据 ETL 等,是生产级 AI 基础设施的核心组件

🎯分布式 ML 训练与推理调度、AI 数据管道编排

#工作流编排#任务调度#ML 管道#Apache
语言Python
🍴 Forks17,207
🔄 更新2026/6/10
📥 收录2026/5/21

OmniParser

开源25k+1

github.com/microsoft/omniparser

微软屏幕解析工具,将屏幕元素转化为结构化数据,为纯视觉 GUI Agent 提供输入

🎯机器人控制、仿真与边缘部署

#vision#gui-agent#microsoft#screen
语言Jupyter Notebook
🍴 Forks2,182
🔄 更新2026/6/10
📥 收录2026/5/18

Bytebot

开源11k

github.com/bytebot-ai/bytebot

自托管 AI 桌面 Agent,11K+ stars。通过自然语言命令自动化完成电脑操作任务,是本地化 Computer Use Agent 的新选择

🎯本地化桌面任务自动化,如文件操作、浏览器自动化、批量数据处理

#桌面 Agent#自托管#自然语言#自动化
语言TypeScript
🍴 Forks1,485
🔄 更新2026/6/9
📥 收录2026/5/23

RobotGo

开源11k-1

github.com/go-vgo/robotgo

Go 原生跨平台 RPA 自动化工具,支持 GUI 控制、屏幕截图、键鼠模拟和窗口操作,可与 AI Agent 结合实现 Computer Use 场景的自动化交互

🎯AI Agent 的 Computer Use 底层 GUI 操作、跨平台桌面自动化测试

#rpa#gui-automation#Computer Use#跨平台
语言Go
🍴 Forks954
🔄 更新2026/6/10
📥 收录2026/6/4

Browser MCP

开源5.7k

github.com/epiral/bb-browser

浏览器即 API — CLI + MCP Server 让 AI Agent 控制 Chrome 浏览器,保持用户登录状态,自动化网页操作

🎯AI Agent 网页自动化、带登录状态的爬虫、浏览器操作代理

#browser-automation#mcp-server#chrome#ai-agent+1
语言TypeScript
🍴 Forks567
🔄 更新2026/6/10
📥 收录2026/6/8