Computer Use（计算机使用）

AI 操作电脑界面

亦作、亦称：计算机使用 · Computer Use Agent · CUA · AI 操控电脑

AI 模型通过视觉感知（截屏）和动作输出（鼠标点击、键盘输入）直接操控图形用户界面（GUI）的能力，无需预定义 API 或 DOM 选择器。Anthropic 于 2024 年 10 月在 Claude 3.5 Sonnet 上首次推出 Computer Use API，Google 于 2026 年在 Gemini 3.5 Flash 中内置该能力（OSWorld 得分 78.4），标志着 Computer Use 从实验性功能进入主流模型标配。

发展历程

Computer Use 的发展可分为三个阶段。

先驱期（2024 年 10 月前）：传统 GUI 自动化依赖 Selenium（Web）、Appium（移动端）等工具，需要预定义 DOM 选择器和操作脚本，无法处理未知界面。
突破期（2024 年 10 月）：Anthropic 在 Claude 3.5 Sonnet 上推出 Computer Use API，首次实现 LLM 通过截屏理解 + 坐标输出的方式操控 GUI。Simon Willison 等开发者迅速进行实验验证。
主流化（2025-2026 年）：2026 年 3 月 Anthropic 推出 Claude 桌面端 Computer Use Agent；Google Gemini 3.5 Flash 内置 Computer Use，OSWorld 得分 78.4；OpenAI Operator 等产品跟进。Computer Use 从实验性功能成为主流模型标配。

技术原理

Computer Use 的工作流程是一个感知-推理-行动循环：(1) 感知——模型接收当前屏幕截屏，通过视觉理解识别界面元素（按钮、输入框、菜单等）；(2) 推理——模型根据任务目标和当前界面状态，推理下一步操作；(3) 行动——模型输出具体操作指令，包括目标坐标（x, y）、动作类型（点击/双击/输入/滚动/拖拽）；(4) 反馈——执行操作后获取新的截屏，循环继续。

与传统 RPA 的核心区别：传统 RPA 依赖预定义工作流和 DOM 选择器，只能在已知界面结构上运行；Computer Use 是零样本泛化的——模型可以处理从未见过的 GUI 界面，因为它通过视觉理解而非硬编码规则来识别界面元素。代价是每步需要截屏 + 推理，速度远慢于 API 调用；且存在不确定性——模型可能点错位置或误解界面。

产品与生态

2026 年的 Computer Use 产品生态包括：

Anthropic Claude Computer Use：2024 年 10 月首发 API，2026 年 3 月推出桌面端 Agent。用户从手机发送任务，Claude 在电脑端自主完成。支持虚拟桌面和物理桌面。
Google Gemini 3.5 Flash Computer Use：内置于 Gemini 3.5 Flash，OSWorld 得分 78.4，成本约为 GPT-5.5 的 1/3。是目前性价比最高的 Computer Use 方案。
OpenAI Operator：OpenAI 的 Computer Use 产品，基于 GPT-5.5 系列。

安全考量：Computer Use 的安全风险显著——模型可以执行任意 GUI 操作，包括访问敏感数据、发送邮件、删除文件等。Anthropic 在文档中用红色警告框提示 prompt injection 风险。生产部署通常需要在沙箱环境中运行，限制可访问的应用和文件系统路径。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「AI 操作电脑界面」
「Agent 赛道必提」
「跟 Computer Use 是一回事吗」

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Computer Use」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

Computer Use（计算机使用）

发展历程

技术原理

产品与生态

常见误解

相关术语

延伸阅读

Computer Use 与屏幕理解：AI Agent 的视觉交互基础

AI Agent 开发实战：从零构建一个完整的自主 Agent（含 Python 全栈实现）

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕