UI-TARS Desktop
字节跳动开源的多模态 AI Agent 桌面端框架,连接前沿 AI 模型与 Agent 基础设施,支持 GUI 自动化操作和多模态交互。
🎯适用场景:多模态内容理解与生成
📥 收录于 2026/5/11
📊 仓库数据
📈 Stars 变化 ↑6 小时 +12· 统计区间 6/28 18:12 → 6/29 00:15(6 小时)
✅ 优点
- •多模态输入输出支持
- •原生 Agent 编排与工具调用
- •浏览器/桌面自动化能力
- •可视化工作流编排
- •35K+ stars 社区认可
⚠️ 限制
- •需要 Node.js 环境
- •协议生态仍在演进
- •文档与社区支持因项目而异
🔗 相关工具
Olares
github.com/beclab/Olares
开源个人云方案,帮助用户重新掌控自己的数据,内置 AI Agent 支持,适合家庭自动化和个人数据隐私场景。
🎯搭建个人私有云并部署本地 AI 服务
Activepieces
github.com/activepieces/activepieces
AI Agent 与工作流自动化平台,内置 400 多个 MCP 服务器,可视化搭建 AI 自动化流程
🎯AI 工作流编排与自动化、MCP 工具协议集成
Skyvern
github.com/skyvern-ai/skyvern
AI 驱动浏览器自动化平台,让 AI Agent 操控浏览器完成复杂网页任务
🎯MCP 工具协议集成
Automa
github.com/automaapp/automa
可视化浏览器自动化浏览器扩展,通过拖拽连接功能块构建网页工作流。零代码门槛,支持 Chrome 和 Firefox 双端,提供丰富的预置模块和 AI 增强能力,适合非技术人员使用。
🎯可视化浏览器自动化——拖拽式工作流构建器,适合非技术人员也能用的网页自动化场景
taipy
github.com/Avaiga/taipy
由 Avaiga 开发的 Python 数据科学应用框架,能快速将数据管道和 AI 算法转化为生产级 Web 应用,内置任务调度、场景管理和数据可视化能力,适合数据科学团队使用。(19K+ stars)
🎯数据流水线 Web 化、AI 模型展示平台、数据仪表盘构建、场景模拟管理
Microsoft Magentic-UI
github.com/microsoft/magentic-ui
微软实验性 Agent,可跨浏览器和本地文件系统协同工作。支持网页操作、文件读写、任务规划等综合能力,是微软在通用 Agent 方向的最新探索,9.8K stars
🎯浏览器自动化 + 本地文件协同操作,适合需要跨浏览器和本地环境的复杂任务自动化场景