标准回答
VLA 是什么
视觉-语言-动作(Vision-Language-Action)模型是一类端到端的具身策略,把摄像头观测和自然语言指令直接映射为机器人动作。代表工作如 RT-2、OpenVLA,通常以预训练的视觉-语言模型为骨干,再增加动作输出头,将动作离散化为「动作 token」与语言 token 统一建模。
为什么有效
借助大模型在海量图文数据上学到的语义理解与常识,VLA 能把「把红色杯子放到盘子右边」这类指令落到具体操作,并对未见过的物体、措辞表现出泛化能力,减少为每个任务单独设计策略的成本。
工程约束
真机要求动作连续、推理频率足够(常需几十 Hz 闭环),并叠加安全约束。实践中常用 VLA 输出高层动作、低层控制器做高频跟踪。
常见误区
⚠️ 常见踩坑
VLA 不是「给机器人接个聊天模型」——动作必须以可执行的物理量(位姿/关节/夹爪)输出并闭环;只做语言规划而不学动作分布,不算 VLA。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。