VLA（视觉-语言-动作模型）

机器人看懂再行动

亦作、亦称：视觉-语言-动作模型 · Vision-Language-Action

视觉-语言-动作模型（VLA，Vision-Language-Action Model）是具身智能领域的多模态基础模型，将摄像头图像、自然语言指令与机器人可执行动作统一到同一网络中进行端到端学习。它让机器人能够「看懂场景、理解指令、直接输出控制信号」，是当前机器人操控与自主导航的核心架构范式。

概述

背景与动机

传统机器人控制依赖手工设计的感知-规划-执行流水线，泛化能力有限。

大视觉语言模型（VLM）在图文理解上积累了海量互联网知识，但无法直接输出物理动作
行为克隆和强化学习方法可训练动作策略，但缺乏跨任务语义泛化能力
VLA 将两者结合：把动作 token 视为语言 token 的一种，复用 VLM 预训练权重来驱动机器人
核心洞察是「动作可被表示为离散 token」，从而用语言模型的自回归解码生成控制序列

核心架构

典型 VLA 由三个模块串联而成。

视觉编码器（常用 ViT，或融合 SigLIP + DINOv2）：将摄像头图像提取为视觉特征向量
语言模型骨干（如 PaLI-X、LLaMA 2、PaLM-E）：融合视觉 token 与语言 token，进行跨模态推理
动作解码头：将模型输出映射到机器人末端执行器的位置、速度或关节角度等控制信号
动作可编码为离散 token（自回归解码）或连续向量（扩散模型 / 流匹配解码），后者在精细操控上更有优势

发展脉络

VLA 的出现是多模态大模型与机器人学习两条路线汇聚的结果。

2021：DeepMind 发布 Gato，单一 Transformer 同时处理文字、图像和机器人动作，概念先行但规模有限
2022：Google 发布 SayCan，用 LLM 做任务规划、独立控制器执行，语言与动作协作但仍是两阶段流水线
2023：Google DeepMind 发布 RT-2（arXiv:2307.15818），首次端到端验证「VLM 直接输出动作 token」路线，VLA 范式正式确立
2024：斯坦福等机构发布开源 OpenVLA（7B 参数）；Physical Intelligence 发布 π0，引入流匹配动作专家；清华 RDT-1B 入选 ICLR 2025
2025 年前后：人形机器人公司大规模采用 VLA 作为核心控制策略，工程落地成为主旋律

代表性模型

不同机构的 VLA 在设计哲学上各有侧重。

RT-2（Google DeepMind，2023）：开创性工作，在 PaLI-X 和 PaLM-E 两个 VLM 骨干上微调，验证互联网知识可迁移至机器人控制
OpenVLA（斯坦福 / 伯克利，2024）：完全开源的 7B 参数通用操控模型，基于 Prismatic VLM（SigLIP + DINOv2 + LLaMA 2），在 Open X-Embodiment 数据集上训练
π0 / π0-FAST（Physical Intelligence，2024）：结合 PaliGemma VLM 骨干与扩散动作专家，流匹配解码显著提升双臂精细操控能力
RDT-1B（清华大学，2024）：10 亿参数扩散基础模型，专注双臂操控，入选 ICLR 2025
Octo（UC Berkeley，2024）：Transformer + 扩散动作头的开源通用机器人策略模型

核心挑战

VLA 落地面临多重技术瓶颈。

数据稀缺：高质量真实机器人演示数据采集成本极高，Open X-Embodiment 等联盟数据集是重要基础设施但规模仍有限
推理延迟：7B+ 参数大模型的自回归推理难以满足机器人 10-50 Hz 的实时控制需求
Sim-to-Real 迁移：仿真与真实环境在外观、物理属性上的差异导致策略迁移失败
动作粒度设计：低频关节角 vs. 高频末端执行器坐标 vs. 6-DoF 姿态的选择直接影响控制精度
安全约束缺位：端到端神经网络难以嵌入硬性安全规则，工业和医疗场景需要额外监控机制

应用场景

VLA 的「理解指令 + 直接控制」能力覆盖多类机器人任务。

桌面操控：按自然语言指令抓取、摆放、分拣物体，可泛化到未见过的物体类别
移动机器人导航：结合场景语义理解执行「去厨房拿水杯」等目标导向导航
工业柔性装配：通过少样本微调适配特定零件的精密装配流程，减少重新编程成本
人形机器人：作为全身控制策略骨干，驱动双手双脚协调完成家务、包装等复杂任务
仿真预训练 + 迁移：在 Isaac Sim、MuJoCo 等仿真器中低成本预训练，再迁移至真实硬件

前沿方向

学术界与产业界正沿多个方向突破当前 VLA 瓶颈。

在线强化学习微调：结合真实环境反馈持续优化策略，摆脱纯离线模仿学习的性能上限
世界模型辅助规划：利用视频预测模型进行内部「想象推演」，提升长程任务规划能力
高效推理加速：投机解码（Speculative Decoding）、量化、异步控制架构等降低控制延迟
跨具身泛化：在异构机器人平台（人形、轮式、桌面臂）间共享预训练权重，实现一模型多平台
思维链动作规划：在生成动作前插入语言推理步骤，提升长时程任务的成功率和可解释性

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「机器人看懂再行动」
「多模态模型接上机械臂」
「具身智能的核心模型」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「VLA」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。