视觉-语言-动作（VLA）模型是什么？

Question 1

视觉-语言-动作（VLA）模型是什么？

Accepted Answer

VLA 是什么 视觉-语言-动作（Vision-Language-Action）模型是一类端到端的具身策略，把摄像头观测和自然语言指令直接映射为机器人动作。代表工作如 RT-2、OpenVLA，通常以预训练的视觉-语言模型为骨干，再增加动作输出头，将动作离散化为「动作 token」与语言 token 统一建模。 为什么有效 借助大模型在海量图文数据上学到的语义理解与常识，VLA 能把「把红色杯子放到盘子右边」这类指令落到具体操作，并对未见过的物体、措辞表现出泛化能力，减少为每个任务单独设计策略的成本。 工程约束 真机要求动作连续、推理频率足够（常需几十 Hz 闭环），并叠加安全约束。实践中常用 VLA 输出高层动作、低层控制器做高频跟踪。

Question 2

VLA 把动作离散成 token 有什么利弊？

Accepted Answer

利：可直接复用语言模型的自回归建模与词表，训练简单、易与文本统一。弊：离散化损失精度、难表达高频连续控制，且单峰自回归对多模态动作分布建模较弱，因此一些方案改用扩散策略输出连续动作序列。

Question 3

VLA 与传统「感知-规划-控制」流水线相比有何取舍？

Accepted Answer

VLA 端到端、泛化强、工程组件少，但可解释性差、对训练数据分布敏感、安全验证难。传统流水线模块清晰、易调试与加约束，但泛化和指令理解弱。实践常做混合：VLA 出意图，经典模块兜底安全。

视觉-语言-动作（VLA）模型是什么？

核心要点

标准回答

常见误区

追问

延伸学习