机器人世界动作模型：时空感知与具身智能的下一代架构

💡

文章摘要

2026 年，复旦团队提出「世界动作模型」（World Action Model），将时空一体的 4D 表征引入机器人感知与决策。与纯视觉世界模型不同，世界动作模型同时建模「环境状态变化」和「动作执行后果」，是具身智能从「看懂世界」到「改变世界」的关键技术跃迁。本文系统梳理其原理、架构、训练方法与落地前景。

前置阅读收获：三十秒了解本文核心价值

在深入阅读之前，先明确从本文能获得什么：

你将掌握的关键认知

-世界动作模型 vs 世界模型：传统世界模型只预测「环境会变成什么样」，而世界动作模型同时预测「如果执行某个动作，环境会如何变化」——这是从被动感知到主动决策的根本区别
-4D 时空表征：在三维空间基础上叠加时间维度，机器人能理解物体的运动轨迹、形变规律和交互后果
-训练范式：从大规模人类操作视频蒸馏动作先验，再到仿真环境微调、真实世界少样本适配的三阶段训练流程
-核心架构：时空编码器 → 动作条件预测头 → 策略蒸馏模块的完整技术栈拆解
-落地前景：工业装配、柔性抓取、人机协作等场景的适用性分析与技术成熟度评估

适合谁读

从事具身智能、机器人学习的研究人员和工程师
对「物理 AI」技术路线感兴趣的 AI 从业者
需要了解机器人感知-决策-控制全链路的系统设计者

本文基于 2026 年复旦团队公开研究成果、Google DeepMind RT 系列、Tesla Optimus 技术报告等权威来源综合分析。

💡 一句话理解

如果你已经读过本站的 physical-001（Sim-to-Real）和 physical-002（机器人大脑），本文是两者的技术延伸——聚焦「动作」这一核心维度，补全具身智能知识体系的最后一块拼图。

⚠️ 常见踩坑

世界动作模型是 2026 年新兴研究方向，部分技术细节仍在快速演进中。本文所述架构基于当前公开论文和实验结果，未来可能有重要更新。

一、什么是世界动作模型：从「看懂」到「改变」的范式转移

世界动作模型（World Action Model, WAM）是具身智能领域 2026 年的突破性方向。要理解它的价值，需要先回顾传统世界模型的局限。

1.1 世界模型的局限

传统世界模型（World Model）的核心任务是 预测未来状态：给定当前观测 s_t 和历史动作序列 a_1...a_t，预测下一步环境状态 s_{t+1}。这类模型在自动驾驶、视频游戏等场景表现优异，但存在一个根本问题：它回答「世界会变成什么样」，却不回答「我应该做什么来让世界变成我想要的样子」。 这就好比一个人能精准预测天气变化，却不知道出门该带伞还是穿雨衣——预测不等于决策。

1.2 世界动作模型的核心创新

世界动作模型的突破在于将动作纳入建模对象，同时学习两个联合分布：

1.状态转移模型：P(s_{t+1} | s_t, a_t) — 给定当前状态和动作，预测下一状态
2.逆动力学模型：P(a_t | s_t, s_{t+1}) — 给定起始状态和目标状态，反推需要的动作

这两个模型的联合训练使机器人具备两种能力：

-正向预测：「如果我推这个杯子，它会倒」
-逆向规划：「如果我想让杯子倒下，我应该用多大的力推哪里」这就是从「感知」到「控制」的闭环。 传统世界模型只能做前者，世界动作模型同时具备两者。

1.3 为什么 2026 年是转折点

三个技术条件在 2026 年同时成熟：

-大规模人类操作视频数据集：Open X-Embodiment、DROID 等数据集提供了百万级「人类演示-机器人响应」配对样本
-4D 表征学习突破：从 3D 点云到 4D 时空体素，模型能捕捉物体的运动轨迹和形变过程
-VLA 模型规模化：Google RT-2、Figure 02 等证明端到端视觉-语言-动作模型的可行性

图表加载中…

💡 一句话理解

理解世界动作模型的关键是抓住「双向建模」：既能从动作推结果，也能从结果推动作。这是与纯预测模型的本质区别。

⚠️ 常见踩坑

不要将世界动作模型与强化学习中的环境模型混淆。世界动作模型的输入是原始观测（图像、点云），而非抽象状态向量。它直接处理高维感知数据，不做降维抽象。

二、4D 时空表征：从三维空间到时间+空间

世界动作模型的第一个核心技术是4D 时空表征（4D Spatiotemporal Representation），它让机器人不仅「看到」物体的形状，还能「理解」物体如何随时间变化。

2.1 从 RGB 到 4D 体素

传统机器人视觉输入是 RGB 图像序列，每个像素只有颜色信息。世界动作模型使用4D 体素网格（4D Voxel Grid），每个体素包含：

-空间坐标：(x, y, z) — 物体在三维空间中的位置
-时间维度：t — 物体在不同时间点的状态
-语义标签：物体的类别和功能（杯子、工具、障碍物）
-物理属性：材质、质量、摩擦系数等先验知识

这种表示方式使模型能够：

1.追踪运动轨迹：物体从 A 点移动到 B 点的完整路径
2.预测形变：软体物体的挤压、弯曲、折叠过程
3.理解因果：施加力 F 后物体的响应轨迹

2.2 时空编码器的设计

4D 表征的核心是时空编码器（Spatiotemporal Encoder），它将原始传感器数据压缩为紧凑的 4D 特征表示。主流架构有三种：


架构类型	核心思想	优势	局限
3D CNN + 时序 RNN	空间用 3D 卷积，时间用 RNN	计算效率高	长序列信息丢失
4D Transformer	将时空统一为 4D 注意力机制	全局建模能力强	计算开销巨大
混合架构（推荐）	局部用 3D CNN，全局用 Transformer	平衡效率与精度	实现复杂度高

2026 年的主流选择是混合架构：在局部感知区域使用高效的 3D 卷积提取空间特征，在任务级时间尺度上使用 Transformer 建模长程依赖。这种设计在计算效率和建模能力之间取得了最佳平衡。

2.3 时间分辨率的权衡

4D 表征面临一个关键决策：时间采样频率。

-高频采样（60-120 Hz）：捕捉快速运动，适用于高速抓取、动态避障，但数据量大、训练困难
-中频采样（10-30 Hz）：平衡效率与精度，适用于大多数工业操作任务
-低频采样（1-5 Hz）：适用于慢速任务如巡检、监控，计算开销最小

实际部署中，推荐采用可变时间分辨率：快速运动阶段使用高频，静态观察阶段使用低频，通过自适应采样策略降低计算成本。

图表加载中…

💡 一句话理解

对于工业场景的机器人部署，建议从 30 Hz 开始测试，根据任务需求调整。大多数装配任务在 10-30 Hz 范围内即可达到满意精度。

⚠️ 常见踩坑

高频采样不是万能的。120 Hz 的计算开销是 30 Hz 的 16 倍以上，且可能引入噪声而非有效信息。采样频率应与任务动态特性匹配，而非盲目追求高频。

三、训练范式：从人类视频到真实部署的三阶段流程

世界动作模型的训练面临一个根本挑战：真实机器人交互数据极其稀缺。一台机器人一天只能产生几千条交互数据，而训练一个有效的模型需要数百万条。解决方案是三阶段渐进训练。

3.1 第一阶段：人类操作视频蒸馏

数据规模：百万级人类操作视频片段（每段 1-5 秒）

数据来源：
-Open X-Embodiment：涵盖 22 种机器人平台、超过 100 万条轨迹的开源数据集
-DROID：分布式机器人交互数据集，包含 76 种任务、50+ 种场景
-人类演示视频：从公开视频平台（经标注筛选）提取的操作动作

训练目标：从人类视频中学习「动作先验」——什么动作在什么情境下是合理的。

模型在这个阶段学习的是常识性的动作知识：

抓取物体前需要先移动手到合适位置
拧螺丝需要旋转而不是推压
倒水时杯子应该倾斜一定角度

这些知识看似简单，但对机器人来说需要从大量观察中统计学习。

3.2 第二阶段：仿真环境微调

数据规模：十万级仿真交互（每步有精确的物理标注）

在获得人类视频蒸馏的先验后，模型进入仿真环境进行微调。仿真环境的优势是：

-精确的物理标注：每一步的力、力矩、接触点都有精确记录
-无限重试：可以在仿真中尝试危险动作而不用担心损坏设备
-场景生成：可以自动生成极端场景（如光照变化、遮挡、噪声）

仿真到现实的差距（Sim-to-Real Gap）是这个阶段的主要挑战。常用缓解策略包括：

1.域随机化：在仿真中随机化纹理、光照、物理参数，提高泛化能力
2.噪声注入：在仿真观测中添加传感器噪声，模拟真实感知
3.混合训练：混合真实数据和仿真数据进行联合训练

3.3 第三阶段：真实世界少样本适配

数据规模：千级真实交互（针对目标任务）

最终阶段在真实机器人上进行少量微调，使模型适应具体的物理特性：

特定机器人的运动学约束（关节限制、最大速度）
特定传感器的噪声特性（相机畸变、LiDAR 漂移）
特定任务的精度要求（装配 ±0.1mm，抓取 ±5mm）

这个阶段的数据量虽小，但价值密度最高——每一条真实交互都包含了仿真无法精确建模的物理细节。

图表加载中…

💡 一句话理解

三阶段训练的关键是逐步提高数据的「真实度」和「针对性」。不要跳过任何一个阶段——跳过仿真微调会导致模型在真实世界中行为不可预测。

⚠️ 常见踩坑

少样本适配阶段的每一步都很昂贵（机器人时间 = 算力 + 磨损 + 安全风险）。建议先在仿真中充分验证策略，再在真实机器人上执行。安全边界设置必不可少。

四、核心架构：从感知到动作的完整技术栈

世界动作模型的完整架构包含四大模块，每个模块承担特定的功能。理解这个架构对于设计和部署你自己的机器人系统至关重要。

4.1 时空编码器（Spatiotemporal Encoder）输入：RGB-D 图像序列 + 可选 LiDAR 点云输出：4D 特征张量（H × W × D × T 维）

编码器将原始传感器数据压缩为紧凑的时空表示。关键设计决策包括：

-输入模态选择：纯 RGB 成本低但缺乏深度信息，RGB-D 更准确但需要额外的深度传感器
-下采样策略：在保持空间精度的同时降低计算量，通常将 224×224 的图像下采样到 32×32 的特征图
-时间窗口：编码器处理的时间窗口长度（通常 0.5-2 秒）决定了模型能捕捉的动态范围

4.2 动作条件预测头（Action-Conditioned Prediction Head）输入：当前 4D 特征 + 候选动作集合输出：每个动作对应的状态转移概率 P(s_{t+1} | s_t, a_t)

这个模块是 世界动作模型的核心。它回答一个问题：「如果我执行动作 a，世界会变成什么样？」动作空间的设计至关重要：

-连续动作空间：关节力矩、末端速度——精度高但搜索空间大
-离散动作空间：预定义的动作基元（如「前移 5cm」「旋转 30°」）——搜索效率高但灵活性受限
-分层动作空间（推荐）：高层选择动作类型，底层精确执行——兼顾灵活性与效率

4.3 策略蒸馏模块（Policy Distillation Module）输入：预测的状态转移 + 目标状态输出：最优动作序列

策略模块利用预测模型的输出进行逆向规划：

给定目标状态 s_goal
搜索能最大化 P(s_goal | s_t, a_t) 的动作序列
输出最优动作并执行

这个过程类似于 在脑海中模拟多种方案，然后选择最有可能成功的一种。

4.4 安全约束层（Safety Constraint Layer）输入：策略输出的动作序列输出：经过安全过滤的动作序列

这是 实际部署中不可或缺的模块：

-碰撞检测：预测动作是否会导致碰撞，如有则修正
-力限制：限制末端执行器的最大输出力，保护人员和设备
-紧急停止：检测到异常状态（如人员闯入工作区域）时立即停止

安全约束层不是可有可无的附加功能，而是必须集成到架构中的核心组件。 任何跳过安全验证的机器人部署都是不负责任的。

💡 一句话理解

对于初学者，建议从离散动作空间开始验证系统功能，确认整体流程正确后再切换到分层或连续动作空间。这样可以显著降低调试难度。

⚠️ 常见踩坑

动作空间的设计直接影响策略搜索的效率。连续动作空间需要复杂的优化算法（如 CEM、MPPI），计算开销可能成为实时控制的瓶颈。务必在架构设计阶段就评估实时性需求。

五、与 VLA 模型的对比：互补还是替代？

世界动作模型经常被拿来与 VLA（Vision-Language-Action）模型比较。两者都致力于统一感知和动作，但技术路线和适用场景有本质差异。

5.1 技术路线对比


维度	世界动作模型 (WAM)	VLA 模型 (如 RT-2)
核心思想	建模「动作-状态」联合分布	将动作编码为文本 token
输入模态	视觉 + 本体感知（可选语言）	视觉 + 语言指令
输出	动作概率分布或连续控制信号	动作 token（解码为控制信号）
推理方式	预测 + 逆向规划	自回归生成
泛化能力	物理交互泛化（新物体、新场景）	语义泛化（新指令、新概念）
计算开销	较高（需要搜索最优动作序列）	中等（LLM 推理）
数据需求	大量交互数据或人类演示	语言-动作配对数据

5.2 能力互补

世界动作模型和 VLA 模型不是替代关系，而是互补关系：

-VLA 擅长高层理解：「把红色方块放到蓝色容器里」——理解语义、分解任务
-WAM 擅长底层执行：具体如何移动手臂、用多大的力、什么角度——精确的物理控制

最佳实践是将两者结合：VLA 负责任务分解和高层规划，WAM 负责底层动作生成和物理验证。这种分层架构既能理解自然语言指令，又能保证动作的物理可行性。

5.3 融合架构示例

在融合架构中，信息流如下：

1.VLA 层接收自然语言指令，输出高层任务序列（如「接近物体 → 抓取 → 移动到目标位置 → 放置」）
2.WAM 层为每个高层任务生成具体的动作序列，并通过预测模型验证可行性
3.安全约束层过滤危险动作，输出最终控制信号

这种架构已在 Figure 02 和 Tesla Optimus 中得到应用，证明其工程可行性。

图表加载中…

💡 一句话理解

如果你的应用场景涉及大量语言指令交互（如服务机器人），优先投资 VLA 层。如果是精密工业操作（如装配、焊接），优先投资 WAM 层。大多数场景需要两者兼顾。

⚠️ 常见踩坑

VLA+WAM 融合架构的复杂度远高于单一模型。系统调试难度显著增加，建议在项目初期就建立完善的仿真测试框架，避免在真实机器人上调试。

六、应用场景与成熟度评估

世界动作模型在多个场景展现出应用潜力，但不同场景的技术成熟度差异很大。以下评估基于 2026 年公开实验结果和产业部署信息。

6.1 成熟场景（TRL 7-9，可商业部署）

工业装配：在结构化环境中执行标准装配任务，如拧螺丝、插接件、贴合。Figure 02 在 BMW 工厂的部署已证明可行性。

仓库分拣：从杂乱堆放的物品中识别并抓取目标物体。Agility Robotics Digit 在 Amazon 仓库的运行表明该场景已具备商业价值。

质量检测：通过视觉感知检测产品缺陷，结合精确的机械臂控制进行标记或移除。Gemini Robotics-ER 1.6 在工业巡检中的应用属于此类。

6.2 发展中场景（TRL 4-6，实验室验证阶段）

柔性物体操作：处理布料、线缆、软管等易变形物体。这类任务需要精确的形变预测和自适应控制，是当前研究热点。

人机协作：在人员存在的环境中安全执行任务，需要实时的人员检测和碰撞规避。Tesla Optimus 的仓库部署正在验证这一方向。

非结构化环境导航：在未知、动态变化的环境中自主移动和操作。这是野外救援、太空探索等场景的关键技术。

6.3 早期探索场景（TRL 1-3，概念验证阶段）

精细操作：穿针引线、精密焊接、显微手术等亚毫米级精度任务。当前机器人的感知分辨率和控制精度尚不足以稳定执行。

多机器人协作：多个机器人协同完成复杂任务。需要解决机器人间的通信、协调和冲突消解问题。

长期自主运行：在无人干预下持续运行数周或数月。当前系统在电池续航、故障恢复和自我维护方面仍有不足。

💡 一句话理解

评估世界动作模型是否适合你的场景，最简单的判断标准是：如果任务需要精确的物理交互（而不是简单的移动或识别），世界动作模型很可能比传统方法有更好的表现。

⚠️ 常见踩坑

不要过度承诺世界动作模型的能力。在 2026 年，它仍然是新兴技术，在精细操作、多机器人协作等场景远未达到商业可用水平。项目规划时应充分考虑技术风险和研发周期。

七、未来趋势：2026-2030 的发展路线

基于当前研究进展和产业投入，世界动作模型在未来几年将经历以下关键演进：

7.1 短期趋势（2026-2027）

-数据集规模扩大：从百万级到千万级人类操作视频，覆盖更多机器人平台和任务类型
-仿真保真度提升：物理引擎精度接近真实世界，Sim-to-Real 差距缩小到可接受范围
-开源生态形成：出现类似 Hugging Face 的机器人模型社区，预训练世界动作模型可公开获取

7.2 中期趋势（2027-2028）

-端到端部署：从「VLA+WAM 融合」演进为单一端到端模型，简化系统架构
-在线学习：机器人在部署过程中持续学习，不断提升操作精度和适应性
-标准化接口：统一的机器人操作接口标准，使不同厂商的机器人可以共享模型

7.3 长期愿景（2028-2030）

-通用操作智能：一个模型适配多种机器人平台和任务类型，类似 LLM 的「基础模型」范式
-物理常识推理：机器人具备对物理世界的常识性理解，能处理从未见过的物体和场景
-人机融合：机器人能理解人类的隐含意图，主动协作而非被动执行指令

关键判断：世界动作模型有可能成为机器人领域的「Transformer 时刻」——一个统一的技术范式，替代当前碎片化的感知-规划-控制方案。但这个时刻尚未到来，仍需 2-3 年的技术积累。

图表加载中…

💡 一句话理解

关注 2027-2028 年的时间窗口——这很可能是世界动作模型从实验室走向大规模商业部署的转折点。届时，相关开源工具和预训练模型将大幅降低入门门槛。

⚠️ 常见踩坑

技术预测存在不确定性。如果仿真到现实的差距无法有效缩小，或者计算成本无法显著降低，世界动作模型的商业化时间线可能推迟 2-3 年。做好技术路线的备选方案。

八、扩展阅读与资源推荐

以下资源可以帮助你深入学习世界动作模型和具身智能的相关技术：

学术论文

-"World Models"(Ha & Schmidhuber, 2018) — 世界模型的开创性工作，奠定了预测建模的基础
-"RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control"(Google DeepMind, 2023) — VLA 模型的代表作
-"Open X-Embodiment: Robotic Learning Datasets and RT-X Models"(2024) — 大规模机器人学习数据集
-"DROID: A Distributed Robot Interaction Dataset"(2025) — 分布式机器人交互数据集

开源项目

-LeRobot（Hugging Face）— 开源机器人学习框架，支持多种机器人平台
-ManiSkill— 基于 GPU 并行化的机器人仿真环境，适合大规模训练
-Isaac Sim（NVIDIA）— 高保真物理仿真平台，支持域随机化和 Sim-to-Real 训练

数据集

-Open X-Embodiment— 22 种机器人、100 万+轨迹
-DROID— 76 种任务、50+ 场景、分布式采集
-BridgeData V2— 双臂操作任务数据集

延伸阅读

本站知识库文章physical-001：Sim-to-Real 迁移技术详解
本站知识库文章physical-002：具身智能全景（从世界模型到人形机器人）
本站知识库文章embodied-industrial-001：具身智能工业应用

💡 一句话理解

建议的学习顺序：先读 physical-001 了解 Sim-to-Real 基础，再读 physical-002 建立具身智能全景认知，最后回到本文深入理解世界动作模型的技术细节。

⚠️ 常见踩坑

学术论文的复现通常需要大量算力和数据。不要期望在个人电脑上训练一个完整的世界动作模型——建议先从 LeRobot 等开源框架的预训练模型开始体验。

实战演练：使用 LeRobot 加载预训练世界动作模型

以下代码展示了如何使用 Hugging Face 的 LeRobot 框架加载预训练的世界动作模型，并在仿真环境中执行简单的抓取任务。

python

from lerobot.common.policies.factory import make_policy
from lerobot.scripts.inference import rollout

# 加载预训练的世界动作模型（基于 ACT 架构）
model_name = "lerobot/act"
policy = make_policy(
    pretrained_name_or_path=model_name,
    policy_kwargs={
        "camera_names": ["cam_high", "cam_left_wrist", "cam_right_wrist"],
        "chunk_size": 100,       # 预测未来 100 步动作
        "hidden_dim": 512,
    },
)

# 加载仿真环境
from lerobot.envs.factory import make_env
env = make_env(
    env_name="sim_pusht",
    device="cuda",  # 或 "cpu"
)

# 执行推理
obs = env.reset()
actions = policy.select_action(obs.unsqueeze(0)).actions[0]

# 在仿真环境中执行动作
for step, action in enumerate(actions):
    obs, reward, terminated, truncated, info = env.step(action)
    if terminated or truncated:
        print(f"任务完成，步数: {step+1}")
        break

python

# 数据加载：从 Open X-Embodiment 数据集加载人类演示
import h5py
import numpy as np
from pathlib import Path

def load_demonstration(h5_path: Path) -> dict:
    """加载人类演示数据用于动作先验学习"""
    with h5py.File(h5_path, "r") as f:
        return {
            "observations": {
                "image": f["/observations/images/cam_high"][:],   # RGB 图像序列
                "depth": f["/observations/depth/cam_high"][:],    # 深度图
                "state": f["/observations/state"][:],             # 机器人状态
            },
            "actions": f["/action"][:],                          # 人类演示动作
            "rewards": f["/reward"][:],                           # 奖励信号
        }

data = load_demonstration(Path("droid/dataset/task_001.h5"))
print(f"演示序列长度: {len(data['actions'])} 步")
print(f"图像分辨率: {data['observations']['image'].shape[1:3]}")
print(f"动作空间维度: {data['actions'].shape[1]}")

💡 一句话理解

LeRobot 的预训练模型可以直接在支持的仿真环境中运行，无需额外训练。这是快速验证世界动作模型可行性的最佳方式。

⚠️ 常见踩坑

预训练模型的性能受训练数据集限制。如果你的任务场景与训练数据差异较大（如新型物体、不同光照条件），可能需要微调。

🎯 相关面试题

巩固本篇知识点，备战 AI 岗位面试。

浏览全部面试题 →

📚 相关文章推荐

🦿进阶

继续你的 AI 学习之旅

浏览更多 AI 知识库文章，或者探索 GitHub 上的优质 AI 项目

📚 浏览知识库 🛠️ 探索 AI 工具

机器人世界动作模型：时空感知与具身智能的下一代架构

文章摘要

前置阅读收获：三十秒了解本文核心价值

你将掌握的关键认知

适合谁读

一、什么是世界动作模型：从「看懂」到「改变」的范式转移

1.1 世界模型的局限

1.2 世界动作模型的核心创新

1.3 为什么 2026 年是转折点

二、4D 时空表征：从三维空间到时间+空间

2.1 从 RGB 到 4D 体素

2.2 时空编码器的设计

2.3 时间分辨率的权衡

三、训练范式：从人类视频到真实部署的三阶段流程

3.1 第一阶段：人类操作视频蒸馏

3.2 第二阶段：仿真环境微调

3.3 第三阶段：真实世界少样本适配

四、核心架构：从感知到动作的完整技术栈

4.1 时空编码器（Spatiotemporal Encoder）输入：RGB-D 图像序列 + 可选 LiDAR 点云输出：4D 特征张量（H × W × D × T 维）

4.2 动作条件预测头（Action-Conditioned Prediction Head）输入：当前 4D 特征 + 候选动作集合输出：每个动作对应的状态转移概率 P(s_{t+1} | s_t, a_t)

4.3 策略蒸馏模块（Policy Distillation Module）输入：预测的状态转移 + 目标状态输出：最优动作序列

4.4 安全约束层（Safety Constraint Layer）输入：策略输出的动作序列输出：经过安全过滤的动作序列

五、与 VLA 模型的对比：互补还是替代？

5.1 技术路线对比

5.2 能力互补

5.3 融合架构示例

六、应用场景与成熟度评估

6.1 成熟场景（TRL 7-9，可商业部署）

6.2 发展中场景（TRL 4-6，实验室验证阶段）

6.3 早期探索场景（TRL 1-3，概念验证阶段）

七、未来趋势：2026-2030 的发展路线

7.1 短期趋势（2026-2027）

7.2 中期趋势（2027-2028）

7.3 长期愿景（2028-2030）

八、扩展阅读与资源推荐

学术论文

开源项目

数据集

延伸阅读

实战演练：使用 LeRobot 加载预训练世界动作模型

标签

📚 相关文章推荐

具身智能（二）：机器人大脑与行为控制

物理 AI 与世界模型：让 AI 理解并预测真实世界

物理 AI 基础设施全景：传感器、计算、执行器与通信网络的完整架构

继续你的 AI 学习之旅