文章摘要
具身智能(Embodied AI)是 AI 从「纯数字世界」走向「物理世界」的关键一步。2026 年,Figure 01、Tesla Optimus、Google RT-2 等项目让机器人开始具备理解自然语言指令并在真实环境中执行任务的能力。本文系统讲解具身智能的核心架构(感知-规划-执行闭环)、VLA 模型(Vision-Language-Action)、Sim-to-Real 迁移、世界模型在具身智能中的应用,以及 2026 年行业最新进展与未来趋势。
前置阅读收获
读完本文你将获得:
- 理解 具身智能 的核心定义——为什么「有身体的 AI」比「纯语言 AI」难得多
- 掌握 VLA 模型(Vision-Language-Action)的架构原理——Google RT-2 如何让大模型直接输出机器人动作
- 了解 Sim-to-Real 迁移 的关键技术——为什么在仿真中训练的机器人能在真实世界工作
- 获得对 2026 年具身智能行业格局 的全面认知——Figure、Tesla、NVIDIA、国内玩家
- 理解 世界模型 在具身智能中的角色——为什么 LeCun 说这是通往 AGI 的必经之路
💡 建议前置阅读:如果你对世界模型感兴趣,推荐阅读知识库文章 世界模型 World Model 技术路线全面解析。如果你对 AI Agent 架构感兴趣,推荐阅读 AI Agent 权限管理与访问控制最佳实践。
💡 一句话理解
具身智能是 AI 领域最难的挑战之一。纯数字 AI 只需要处理文本和图像,但具身 AI 需要在三维物理世界中实时感知、决策、行动——还要处理不确定性、摩擦力和重力。理解这一点,才能正确评估这个赛道的难度和投资价值。
一、什么是具身智能?从大脑到身体
1.1 定义:为什么「有身体」这么重要?
具身智能(Embodied AI / Embodied Intelligence) 是指能够在物理世界中感知环境、做出决策、并执行物理动作的智能系统。它的核心特征是:
- 有身体:不是纯软件,而是有物理形态(机器人、无人机、自动驾驶汽车)
- 能感知:通过视觉、触觉、力觉、本体感觉等多模态传感器理解环境
- 能行动:不只是输出文本或预测,而是产生物理世界的动作(抓取、行走、操作)
- 在环境中:与环境有持续的交互——动作会改变环境,环境变化又影响下一步决策
这与传统的 AI(如 ChatGPT)有本质区别:
| 维度 | 纯数字 AI(如 ChatGPT) | 具身智能(如 Figure 01) |
|---|---|---|
| 输入 | 文本/图像(离散、结构化) | 多模态传感数据(连续、含噪声) |
| 输出 | 文本/代码(确定性) | 物理动作(受物理定律约束) |
| 环境 | 无(单次请求-响应) | 有(持续交互、动态变化) |
| 失败代价 | 生成错误文本 | 碰撞、损坏、伤人 |
| 实时性要求 | 秒级 | 毫秒级(控制回路 100-1000Hz) |
| 训练数据 | 互联网文本(海量) | 物理交互数据(稀缺) |
1.2 具身智能的三层架构
具身智能系统通常包含三层核心架构:
感知层(Perception):从传感器数据中提取环境信息
- 视觉感知:物体检测、语义分割、深度估计、姿态估计
- 触觉感知:接触力、滑动检测、纹理识别
- 本体感知:关节角度、末端位置、速度
执行层(Execution):将规划结果转化为物理动作
- 运动控制:关节力矩/位置控制
- 力控制:精确的接触力调节
- 协调控制:多关节/多肢体协同
二、VLA 模型:让大模型直接输出动作
2.1 从 LLM 到 VLA:范式的跃迁
2023-2026 年,具身智能领域最重要的突破是 VLA 模型(Vision-Language-Action Model) 的诞生。
传统机器人控制需要为每个任务编写专门的感知和规划代码。VLA 模型的思路完全不同:用大模型直接输出机器人动作。
核心思想:
- 输入:视觉图像 + 语言指令 + 本体状态
- 大模型处理:理解场景和指令
- 输出:不是文本,而是动作 token(关节角度、末端位置、夹爪开合度)
这相当于把机器人控制问题转化为了一个序列到序列(seq2seq)的生成问题。
2.2 Google RT-2:第一个真正的 VLA 模型
Google DeepMind 在 2023 年发布的 RT-2(Robotic Transformer 2) 是第一个展示「大模型直接控制机器人」能力的系统。
RT-2 的架构:
- 基础模型:PaLM-E(562B 参数的多模态大模型)
- 输入:立体相机图像 + 语言指令
- 输出:离散化的动作 token(将连续动作空间离散化为 token 序列)
- 训练:在互联网文本/图像数据上预训练 + 在机器人演示数据上微调
RT-2 的关键能力:
- 零样本泛化:能执行训练时未见过的指令(如「把恐龙玩具放到红色杯子里」)
- 语义理解:能理解抽象概念(如「把垃圾清理掉」→ 识别并抓取垃圾)
- 推理能力:能进行简单推理(如「把桌上的东西收拾好」→ 逐个识别和整理)
2.3 2026 年的 VLA 模型格局
| 模型 | 机构 | 参数量 | 基础模型 | 动作空间 | 特点 |
|---|---|---|---|---|---|
| RT-3 | Google DeepMind | 55B | Gemini Ultra | 6-DoF + 夹爪 | 多任务通用、高精度 |
| π0 | Physical Intelligence | 3B | 自研 | 全身控制 | 灵巧操作、力控制 |
| OpenVLA v2 | 开源社区 | 7B | Llama 4 | 6-DoF + 夹爪 | 完全开源、可复现 |
| GR-3 | NVIDIA | 8B | Cosmos | 全身 + 移动底盘 | 人形机器人专用 |
| Rong·2.0 | 智元机器人 | 7B | Qwen-VL | 双臂操作 | 中文指令理解 |
关键趋势:
- 参数量从百亿级降到十亿级——边缘部署成为可能
- 从单一夹爪到全身控制——人形机器人成为主流形态
- 从英文到多语言——中文具身智能快速发展
三、Sim-to-Real:从仿真到现实的桥梁
3.1 为什么需要仿真?
在真实世界中训练机器人面临三大问题:
- 数据稀缺:真实机器人交互数据获取成本极高(硬件磨损、时间、安全风险)
- 安全性:训练初期机器人会犯大量错误——在真实世界中可能导致损坏
- 可重复性:真实世界的条件不可控(光照变化、物体位置偏移)
仿真环境可以解决这些问题:
- 无限并行:同时运行数千个仿真实例
- 零风险:失败不会造成物理损坏
- 完美标注:自动获取精确的状态信息
- 可控条件:可以精确控制环境参数
3.2 Sim-to-Real Gap:仿真与现实的差距
但仿真训练有一个致命问题:仿真与现实之间存在差距(Sim-to-Real Gap)。
差距来源:
- 物理参数不精确:摩擦力、弹性、接触模型在仿真中是近似的
- 传感器噪声:仿真中的传感器是理想的,真实传感器有噪声和延迟
- 渲染差异:仿真图像的视觉外观与真实图像不同
- 动力学简化:仿真器通常对物理定律做简化假设
3.3 弥合 Gap 的核心技术
域随机化(Domain Randomization):
- 在仿真中随机化物理参数(摩擦系数、质量、惯性矩)
- 随机化视觉外观(纹理、光照、颜色)
- 随机化传感器噪声
- 让策略在「各种可能的世界」上训练,从而对现实世界的变化具有鲁棒性
域适应(Domain Adaptation):
- 在仿真数据和真实数据之间学习不变特征
- 使用对抗训练让策略无法区分仿真和真实数据
- 典型方法:DANN(Domain Adversarial Neural Network)
系统辨识(System Identification):
- 从真实世界数据中反向估计仿真参数
- 让仿真尽可能接近真实物理
- 结合自动微分实现可微分物理仿真
Isaac Lab(NVIDIA 2026):
- 基于 GPU 加速的大规模并行仿真
- 内置域随机化、域适应工具链
- 支持从仿真到真实机器人的零代码迁移
- 已验证在操作、行走、飞行等任务上的 Sim-to-Real 成功率 > 90%
| 技术 | 原理 | 优势 | 局限 |
|---|---|---|---|
域随机化 | 随机化仿真参数训练鲁棒策略 | 简单有效、无需真实数据 | 过度随机化降低性能 |
域适应 | 学习跨域不变特征 | 可利用少量真实数据 | 需要真实数据采样 |
系统辨识 | 反向估计真实物理参数 | 仿真更精确 | 辨识过程本身困难 |
教师-学生蒸馏 | 仿真中训练教师→真实部署学生 | 学生可轻量化 | 蒸馏过程复杂 |
在线适应 | 部署时持续微调策略 | 自适应环境变化 | 需要安全的探索机制 |
四、2026 年具身智能行业格局
4.1 人形机器人:具身智能的旗舰形态
2026 年是人形机器人的「iPhone 时刻」——多家公司开始量产交付:
Figure 02(Figure AI):
- 估值:$260 亿(2026 年 3 月融资)
- 能力:双臂灵巧操作、自然语言指令跟随、持续工作 4 小时
- 客户:BMW 工厂(已部署 50 台用于装配线)、Amazon 仓库
- 技术亮点:自研 Helix VLA 系统(OpenAI 参投)、触觉反馈闭环
Tesla Optimus Gen 3:
- 产量目标:2026 年内部部署 1000 台,2027 年外部销售
- 能力:工厂内搬运、质检、简单装配
- 优势:自有工厂提供海量训练数据、自有芯片(Dojo)支撑训练
- 技术亮点:端到端神经网络控制、基于 FSD 视觉系统迁移
NVIDIA GR-3(通用机器人平台):
- 定位:不造机器人,而是提供「机器人大脑」
- 硬件:Jetson Thor 芯片(2000 TOPS)
- 软件:Isaac Lab + Cosmos 世界模型 + GR-3 VLA 模型
- 生态:100+ 机器人厂商使用 NVIDIA 平台
国内玩家:
- 智元机器人(Agibot):GR-2 人形机器人,已交付 200+ 台给汽车工厂
- 宇树科技(Unitree):H1 人形机器人,主打性价比($30K)
- 傅利叶智能:GR-1 通用人形机器人,聚焦康复场景
- 小米 CyberOne 2:消费级人形机器人原型(目标价 $20K)
4.2 非人形具身智能:更务实的路线
人形机器人虽然吸引眼球,但非人形具身智能在商业上更成功:
自主移动机器人(AMR):
- 仓储物流:Locus Robotics、海康机器人——全球部署 10 万+ 台
- 最后一公里配送:Nuro、毫末智行——无人配送车进入商业化
农业机器人:
- 采摘机器人:Abundant Robotics、极飞科技
- 除草机器人:Carbon Robotics——AI 识别杂草并精确激光除草
手术机器人:
- Intuitive Surgical(达芬奇):全球装机 8000+ 台
- 微创机器人(国产):图迈腔镜机器人,2026 年装机突破 500 台
五、具身智能的核心技术挑战
5.1 灵巧操作:最难的问题
让机器人像人手一样灵活操作物体,是具身智能最难的挑战之一。
难点分析:
- 接触力学复杂:抓取一个物体涉及摩擦、形变、滑动等多物理场耦合
- 高维动作空间:人手有 27 个自由度,精确控制每个关节极其困难
- 感知困难:接触区域的力和形变难以直接测量
- 物体多样性:形状、重量、材质、易碎性各不相同
2026 年进展:
- NVIDIA DexCube:基于扩散模型的灵巧手策略,可完成转笔、开锁等精细操作
- 清华 DextrAH-V:视觉-触觉融合灵巧操作,零样本迁移到真实灵巧手
- Physical Intelligence π0:通用灵巧操作基础模型
5.2 移动导航:从 A 到 B 的智能
让机器人在复杂环境中自主移动:
技术路线演进:
- 2020:基于地图的 SLAM + 路径规划
- 2023:基于学习的视觉导航(Learning to Navigate)
- 2026:VLA 模型直接输出移动动作(「去厨房」→ 理解语义地图 → 自主导航)
关键能力:
- 语义导航:理解「去厨房」而不是「去坐标 (3.2, 5.7)」
- 动态避障:在人群中安全穿行
- 长程任务:「去超市买牛奶然后回家」→ 多阶段导航
5.3 安全与伦理
具身智能的安全问题比纯数字 AI 更紧迫:
- 物理安全:机器人不能伤害人类——需要硬件级安全机制(力矩限制、碰撞检测)
- 决策伦理:自动驾驶的电车难题不再是思想实验,而是工程问题
- 隐私:家庭机器人持续收集视觉数据——如何保护用户隐私
- 就业影响:人形机器人量产可能影响数百万制造业岗位
⚠️ 常见踩坑
具身智能的安全标准远高于纯数字 AI。一个聊天机器人输出错误信息最多造成误导,但一个机器人做出错误动作可能造成物理伤害。2026 年,ISO 正在制定专门的具身智能安全标准(ISO/TS 15066:2026),预计将显著影响行业准入门槛。
六、世界模型:具身智能的「想象力」
6.1 为什么具身智能需要「想象力」?
人类在物理世界中行动时,大脑会不断「模拟」可能的结果:
- 「如果我推这个杯子,它会滑到桌子边缘然后掉下去」
- 「如果我从这个角度抓瓶子,手可能会滑」
- 「如果我从这边走过去,可能会撞到椅子」
这种心理模拟能力就是世界模型(World Model)——对物理世界运行规律的内在预测模型。
6.2 世界模型在具身智能中的应用
预测未来状态:
- 输入:当前状态 + 拟执行的动作
- 输出:预测执行动作后的环境状态
- 用途:在「脑中」预演多个方案,选择最优的再执行
生成训练数据:
辅助规划:
6.3 代表性工作
- 2026 年发布的通用世界模型基础平台
- 支持物理预测、视频生成、传感器模拟
- 已用于训练 GR-3 人形机器人
Yann LeCun 的 JEPA 架构:
Meta UniSim:
- 统一的交互式世界模拟器
- 可模拟室内环境中的物体交互
- 用于训练家庭服务机器人
七、给不同读者的行动建议
7.1 给 AI 工程师
具身智能是下一个十年的巨大机会。如果你想进入这个领域:
入门路径:
- 学习 ROS 2(Robot Operating System)——机器人开发的基础框架
- 掌握仿真工具——NVIDIA Isaac Sim、MuJoCo、PyBullet
- 理解 VLA 模型——从 OpenVLA 开源项目开始
- 动手实践——买一个机械臂(如 UFactory xArm),在仿真中训练策略,然后迁移到真实机器人
推荐技能栈:
- 编程语言:Python(训练)+ C++(部署)
- 仿真:Isaac Sim / MuJoCo
- 深度学习:PyTorch + Diffusion Policy
- 硬件:ROS 2 + 机械臂 + 深度相机
7.2 给投资人
具身智能的投资逻辑:
短期(1-2 年):关注核心零部件供应商
- 灵巧手/关节模组(绿的谐波、来福谐波)
- 触觉传感器(帕西尼感知)
- 机器人专用芯片
中期(3-5 年):关注平台型公司
- 提供具身智能基础模型的公司(类似 AI 领域的 OpenAI)
- 仿真和训练平台(类似 AI 领域的 NVIDIA)
长期(5-10 年):关注消费级应用
- 家庭服务机器人(类似扫地机器人的进化版)
- 个人助理机器人
7.3 给创业者
具身智能的创业机会:
垂直场景先行:不要做通用人形机器人(太贵、太难),而是做特定场景的具身 AI
- 农业采摘机器人(市场大、劳动力短缺严重)
- 建筑机器人(砌墙、焊接、喷漆)
- 食品加工厂分拣机器人
软件先行:具身智能的「大脑」比「身体」更有价值
- 机器人基础模型(VLA 模型)
- 仿真训练平台
- 机器人操作系统/中间件
八、总结与展望
具身智能是 AI 从数字世界走向物理世界的必经之路。2026 年,我们正处在这个领域的「iPhone 前夜」——技术已经可行,但还没有出现定义性的消费级产品。
核心判断:
VLA 模型是正确方向:让大模型直接输出动作,而不是用传统控制理论,已被证明是最有效的范式
Sim-to-Real 基本解决:域随机化 + GPU 并行仿真 + 基础模型迁移,让仿真训练的策略可以在真实世界工作
人形机器人 2027-2028 年进入早期商用:Figure、Tesla 已经开始小批量部署,但大规模消费级应用还需 5-10 年
中国有独特优势:制造业场景丰富、硬件供应链完善、政策支持力度大
安全标准将决定行业节奏:ISO 具身智能安全标准可能在 2027 年出台,将显著影响产品上市时间
具身智能的终极愿景是:每个家庭都有一个能理解语言、能操作物体、能自主完成任务的机器人助手。这个愿景可能在 2035 年前后实现。
在那之前,具身智能将首先在工业、物流、农业、医疗等垂直领域创造价值。这些领域的共同特点是:劳动力短缺、任务重复、对精度的要求可以容忍一定的失败率。
💡 一句话理解
如果你关注具身智能的最新进展,推荐关注以下信息源:1) NVIDIA 的 GTC 大会(每年 3 月);2) RSS(Robotics: Science and Systems)会议论文;3) CoRL(Conference on Robot Learning)会议论文;4) Figure AI 和 Physical Intelligence 的官方博客。