核心要点

  • 能讲清 VLA 的输入输出:输入图像/视频 + 自然语言指令,输出离散或连续的机器人动作(动作 token 或末端位姿序列)

  • 能说出代表工作:RT-2、OpenVLA,多在视觉-语言大模型骨干上加动作头,做端到端微调

  • 能说出核心价值:复用大模型的视觉语义与常识,实现对未见物体/指令的零样本或少样本泛化

  • 能说出落地约束:推理频率、动作连续性与安全性,常需配合低层控制器与高频闭环

标准回答

VLA 是什么

视觉-语言-动作(Vision-Language-Action)模型是一类端到端的具身策略,把摄像头观测和自然语言指令直接映射为机器人动作。代表工作如 RT-2、OpenVLA,通常以预训练的视觉-语言模型为骨干,再增加动作输出头,将动作离散化为「动作 token」与语言 token 统一建模。

为什么有效

借助大模型在海量图文数据上学到的语义理解与常识,VLA 能把「把红色杯子放到盘子右边」这类指令落到具体操作,并对未见过的物体、措辞表现出泛化能力,减少为每个任务单独设计策略的成本。

工程约束

真机要求动作连续、推理频率足够(常需几十 Hz 闭环),并叠加安全约束。实践中常用 VLA 输出高层动作、低层控制器做高频跟踪。

常见误区

⚠️ 常见踩坑

VLA 不是「给机器人接个聊天模型」——动作必须以可执行的物理量(位姿/关节/夹爪)输出并闭环;只做语言规划而不学动作分布,不算 VLA。

追问

追问 1VLA 把动作离散成 token 有什么利弊?

利:可直接复用语言模型的自回归建模与词表,训练简单、易与文本统一。弊:离散化损失精度、难表达高频连续控制,且单峰自回归对多模态动作分布建模较弱,因此一些方案改用扩散策略输出连续动作序列。

追问 2VLA 与传统「感知-规划-控制」流水线相比有何取舍?

VLA 端到端、泛化强、工程组件少,但可解释性差、对训练数据分布敏感、安全验证难。传统流水线模块清晰、易调试与加约束,但泛化和指令理解弱。实践常做混合:VLA 出意图,经典模块兜底安全。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。