文章摘要
2026年6月,Sharpa联合清华大学、UC Berkeley、ETH Zurich等机构发布首个通用触觉基础策略FTP-1。该模型基于约3000小时、21种触觉传感器的数据进行预训练,在已知传感器上成功率提升17.2%,在从未见过的传感器上提升31.6%。本文深入拆解FTP-1的三大核心创新(MTTS统一表示、独立触觉专家、异构数据集),分析其对具身智能产业的深远影响,并对比视觉基础模型的发展路径。
前置阅读收获
读完本文你将获得:
- 理解 触觉基础模型 的核心意义——为什么触觉需要像视觉一样的「ImageNet时刻」
- 掌握 FTP-1 三大创新:MTTS统一表示、独立触觉专家、3000小时异构数据集
- 了解 跨传感器泛化 的技术原理——为什么未见传感器能提升31.6%
- 获得对 触觉感知赛道 的全面认知——从硬件碎片化到基础模型标准化
- 理解 触觉与视觉的融合路径——VLA模型如何升级为VTLa模型
💡 建议前置阅读:如果你对具身智能整体架构感兴趣,推荐阅读 具身智能技术全景:从感知到行动的闭环智能。如果你对世界模型在机器人中的应用感兴趣,推荐阅读 物理AI与空间智能:世界模型如何赋能机器人。
💡 一句话理解
触觉是具身智能最后一块未被基础模型覆盖的感知模态。视觉有ImageNet、语言有Common Crawl,但触觉数据必须在物理世界中通过真实交互收集——这解释了为什么触觉基础模型比视觉基础模型晚了近十年。
⚠️ 常见踩坑
触觉基础模型仍处于早期阶段。FTP-1的3000小时数据量相比视觉的数十亿图像仍有数量级差距。投资者应关注数据收集基础设施(如Sharpa的遥操作平台)而非仅看模型架构。
一、为什么触觉需要基础模型?——硬件碎片化的困境
1.1 触觉 vs 视觉:两种感知模态的根本差异
所有摄像头输出的都是像素矩阵,但触觉传感器却千奇百怪。 这是触觉学习面临的第一个也是最根本的挑战。
视觉领域在2012年ImageNet之后就走上了标准化快车道:无论你用索尼、佳能还是手机摄像头,输出的都是RGB三通道像素矩阵。卷积神经网络可以对任何相机的输出做同样的处理。这种硬件层的标准化让视觉算法可以跨设备迁移。
触觉领域则完全不同。据arXiv论文(2606.13102v1)统计,当前主流触觉传感器至少分为三大类:
- 图像类传感器(7种):如GelSight、Sharpa DTC,通过摄像头观察弹性体形变,输出高分辨率触觉图像
- 阵列类传感器(5种):如AetherGlove、uSkin,输出压力分布矩阵
- 状态类传感器(9种):如ATI力/力矩传感器、FrankaTorque,输出单点或多点的力和力矩数值
这意味着:一个为GelSight训练的触觉策略,无法直接用于Contactile阵列或力/力矩传感器。 硬件底层逻辑的差异导致过去的研究只能为特定传感器量身定制算法,一旦更换硬件,模型必须从头训练。
1.2 触觉数据收集的三座大山
据机器之心报道,触觉数据收集面临三个视觉领域不存在的难题:
- 硬件极度异构:不同传感器的输出格式、分辨率、物理形态完全不兼容
- 反应频率要求高:视觉-语言-动作模型(VLA)的控制频率通常只有5Hz,但物体滑动时的反应时间只有几十毫秒
- 高质量数据极度匮乏:互联网上有海量图像数据,但「互联网上没有触觉数据」——每一次真实的接触、摩擦和形变都必须在物理世界中通过交互收集
FTP-1的核心贡献,就是证明触觉能力可以像视觉一样构建通用基础模型。 这不是简单的算法优化,而是从数据表示层到模型架构的系统性创新。
💡 一句话理解
触觉传感器的碎片化程度远超大多数人的想象。仅图像类传感器就有7种主流方案,每种的数据格式和分辨率都不同。这是触觉基础模型比视觉基础模型晚出现近十年的根本原因。
⚠️ 常见踩坑
不要将触觉传感器与力/力矩传感器混淆。前者提供接触面的空间分布信息(图像或阵列),后者仅提供单点或合力信息。FTP-1的21种传感器涵盖了这两大类。
二、FTP-1架构拆解:三大核心创新
2.1 创新一:MTTS——形态感知触觉Token空间
MTTS(Morphology-Aware Tactile Token Space)是FTP-1最关键的创新。 它解决了一个根本性问题:如何在不统一硬件的前提下统一触觉表示?
MTTS的思路是借鉴人类手部的功能区域划分。它将任何灵巧手或夹爪的触觉输入映射到24个固定的功能区域槽位:
- 槽位0-14:代表手部的不同物理接触区域(拇指尖、食指尖、中指、无名指、小指、各指腹、掌心等)
- 槽位15-20:用于表示手腕和手指关节处的力与力矩信号
- 槽位21-23:预留扩展槽位
关键洞察:功能等效性映射。 对于最简单的两指平行夹爪,它的两个传感器会被直接映射到「拇指尖(槽位0)」和「食指尖(槽位1)」——因为它们在抓取功能上是等效的。硬件不同,但语义保持一致。
这意味着:
- 平行夹爪可以映射到拇指和食指槽位
- 灵巧手可以使用0-14号槽位
- 腕部和手指力/力矩传感器使用15-20号槽位
MTTS的意义类似触觉领域的ImageNet:不是简单堆更多数据,而是在异构原始信号之上建立一个共享表示层。
2.2 创新二:独立触觉Transformer专家(约300M参数)
不同于adapter式融合,FTP-1采用多专家架构。 这一设计解决了一个关键矛盾:如何学习触觉表示而不破坏预训练VLM已有的视觉-语言知识?
过去的做法是直接把触觉信号「塞」进视觉-语言大模型中。但FTP-1团队发现,这种做法会干扰模型原本已经学得很好的视觉和语言常识。
FTP-1的解决方案:
- 保留预训练的视觉-语言专家(冻结参数)
- 独立设置一个约3亿参数的共享触觉Transformer专家
- 动作专家在生成指令时,同时向视觉专家和触觉专家「请教」
- 触觉专家保持独立,梯度不会反传到视觉-语言专家
这种设计的优势:
- 保护原有VLM知识:视觉-语言专家的参数不被触觉梯度干扰
- 学习可复用的触觉表示:触觉专家专注于触觉特征提取
- 支持新传感器快速接入:遇到预训练中没见过的新传感器,只需从头训练对应的传感器encoder,预训练好的触觉专家、功能区域embedding、以及共享的图像-触觉Transformer模块都可以继续复用
2.3 创新三:FTP-1-Dataset——3000小时、21种传感器、26个来源
基础模型能否成立,数据规模至关重要。 FTP-1-Dataset汇集了来自26个来源的约3000小时触觉操作数据,包含21种不同触觉传感器:
- 7种图像传感器:Sharpa DTC、ViTai-GF、FreeTacMan、exUMI、ViTaMIn、GelSight-Mini、MCTac
- 5种阵列传感器:AetherGlove、OpenTouchGlove、LinkerHandL6Touch、3DViTac、uSkin
- 9种状态传感器:PaxiniGlove、UnitreeDex3、InspireHand、DexumiInspire、DexumiXHand、ATI Axia80-M20、FrankaTorque、AIDIN-FT、FlexivGripperTorque
数据混合比例(重采样后):
- 约20%人类数据
- 约30%灵巧手数据
- 约50%夹爪数据
其中,Sharpa贡献了Sharpa North-FTP-1数据集:4000条在Sharpa North上采集的长程灵巧操作示教,使用Sharpa DTC(Dynamic Tactile Array,动态触觉阵列)传感器。
所有标注都在MTTS框架下统一标准化,语言指令也通过GPT-4o进行改写,以增强表达多样性。
💡 一句话理解
MTTS的24个功能区域槽位设计体现了「功能等效性」思想——不同硬件的传感器,只要在操作中承担相同功能,就映射到同一槽位。这是跨硬件泛化的关键。
⚠️ 常见踩坑
独立触觉专家架构虽然保护了VLM知识,但也意味着模型参数量增加约3亿。在边缘部署场景下需要考虑算力约束。
三、实验结果:跨传感器泛化的实证
3.1 实验设计:5家机构、14个任务
FTP-1的验证方式体现了对可复现性的严格要求。 模型的checkpoint被分发给全球5家独立机构,用于下游微调和验证。这不是传统的「作者自测」,而是真正的独立评估。
14个任务覆盖:
- 手内调整:如翻书、拧瓶盖
- 力控按压:如画气球(需要精确力度控制)
- 插入/拔出:需要力反馈的精密装配
- 柔性物体交互:如擦拭餐具(涉及形变物体)
- 长程双臂操作:复杂的多步骤任务
3.2 核心结果:已知+17.2%,未见+31.6%
表1:FTP-1在真实机器人上的成功率对比(已知传感器)
| 任务 | π₀.₅基线 | Tactile-VLA | FTP-1 |
|---|---|---|---|
| Draw Balloon(画气球) | 35% | 20% | 45% |
| Twist Cap(拧瓶盖) | 40% | 10% | 65% |
| Flip Book(翻书) | 65% | 45% | 85% |
| Wipe Dish(擦餐具) | 30% | 35% | 60% |
| 平均 | 45.3% | - | 62.5% |
关键发现:FTP-1平均成功率62.5%,比π₀.₅的45.3%高出17.2个百分点。
更令人惊讶的是未见传感器设置下的表现:
表2:FTP-1在未见传感器上的泛化能力
| 设置 | 最强基线 | FTP-1 | 提升 |
|---|---|---|---|
| 未见传感器(平均) | - | - | +31.6% |
| 仿真环境UniVTAC(平均) | 49.2% | 66.7% | +17.5% |
这意味着什么?
- 触觉能力可以像视觉一样迁移:模型学到的不是某个传感器的局部技巧,而是可复用的触觉知识
- MTTS的泛化能力得到验证:功能区域映射确实能够处理训练时未见过的硬件
- 基础模型路线可行:触觉领域可以走通「预训练-微调」的范式
3.3 仿真环境结果:UniVTAC基准
在仿真环境UniVTAC中,FTP-1的平均成功率达到66.7%,比最强基线高出17.5个百分点。
如果排除相对简单的抓取任务,只看更依赖接触反馈的任务,FTP-1达到59.5%,而只做架构改造、没有触觉预训练的FTP-π₀.₅为42.0%。
这17.5个百分点的差距,纯粹来自触觉预训练带来的触觉理解能力提升。
💡 一句话理解
未见传感器+31.6%的提升是FTP-1最具说服力的结果。它证明模型学到的是可迁移的触觉知识,而非对特定传感器的过拟合。
⚠️ 常见踩坑
实验中的「未见传感器」仍属于21种预训练传感器类型(图像/阵列/状态)之一。完全新型传感器的泛化能力尚未验证。
四、与视觉基础模型的对比:发展路径的异同
4.1 视觉基础模型的发展回顾
视觉基础模型经历了约10年的发展才达到今天的成熟度。 回顾这一历程有助于理解触觉基础模型的潜在演进路径。
| 里程碑 | 时间 | 核心贡献 |
|---|---|---|
| ImageNet | 2009 | 标准化数据集+基准测试 |
| AlexNet | 2012 | 深度学习在视觉领域的突破 |
| VGG/ResNet | 2014-2015 | 更深的网络架构 |
| ViT | 2020 | Transformer进入视觉领域 |
| CLIP | 2021 | 视觉-语言对齐 |
| SAM | 2023 | 通用分割基础模型 |
关键观察:视觉基础模型的每一步都依赖数据标准化和架构创新的协同演进。
4.2 触觉基础模型的独特挑战
触觉基础模型面临三个视觉领域不存在的挑战:
数据收集成本:互联网上有数十亿公开图像,但触觉数据必须在物理世界中通过真实交互收集。FTP-1的3000小时数据来自26个机构,收集成本极高。
硬件碎片化:所有摄像头输出RGB像素矩阵,但触觉传感器输出图像、阵列、状态三种完全不同格式的数据。MTTS通过功能区域映射解决了这一问题,但标准化程度仍远低于视觉。
实时性要求:视觉-语言-动作模型的控制频率通常只有5Hz,但触觉反馈需要毫秒级响应。这要求模型在推理时也要保持高效。
4.3 发展路径预测
基于视觉基础模型的经验,我们预测触觉基础模型的演进路径:
关键节点:
- 2026-2027:FTP-1建立基线,MTTS成为事实标准
- 2028:数据规模达到10万小时级别,触觉-视觉对齐技术成熟
- 2029:触觉、视觉、语言三模态统一基础模型出现
- 2030+:通用具身智能进入规模化部署阶段
💡 一句话理解
触觉基础模型的发展可能比视觉更快——因为视觉领域的经验可以直接借鉴。MTTS的提出相当于视觉领域的ImageNet,为后续研究提供了标准化基础。
⚠️ 常见踩坑
发展路径预测存在不确定性。如果触觉数据收集技术没有突破(如更高效的遥操作平台),数据瓶颈可能延缓进展。
五、产业影响:从实验室到规模化部署
5.1 对机器人厂商的影响
FTP-1的出现将显著降低机器人厂商的触觉算法开发成本。
过去,每家机器人厂商都需要为自己的传感器定制触觉策略。更换传感器意味着重新收集数据、重新训练模型。这种碎片化严重阻碍了触觉技术的规模化应用。
FTP-1提供的解决方案:
- 预训练checkpoint可直接使用:厂商无需从零开始训练
- 新传感器只需训练encoder:预训练的触觉专家、功能区域embedding、共享Transformer模块都可复用
- 跨平台迁移成为可能:灵巧手和夹爪可以共享同一套触觉知识
据NE时代报道,FTP-1已在5家独立机构完成验证,覆盖14个任务。 这种独立验证机制增强了产业界对触觉基础模型的信任度。
5.2 对传感器厂商的影响
触觉基础模型将加速传感器市场的整合。
当MTTS成为事实标准后,传感器厂商需要确保自己的产品能够映射到24个功能区域槽位。这意味着:
- 兼容性成为竞争力:能够无缝接入MTTS生态的传感器更受欢迎
- 数据格式标准化:传感器厂商需要提供标准化的数据接口
- 生态合作重于单打独斗:加入FTP-1等开源生态比独立发展更有优势
5.3 对投资机构的影响
触觉基础模型标志着具身智能进入新的投资阶段。
过去,投资具身智能需要同时赌硬件(机器人本体)和软件(算法)。FTP-1的出现意味着:
- 算法层风险降低:触觉基础模型提供了可复用的起点
- 数据基础设施价值凸显:遥操作平台、数据收集工具成为关键瓶颈
- 垂直场景机会增加:基于FTP-1微调的垂直场景解决方案(如精密装配、柔性物体操作)成为投资热点
据夏季达沃斯论坛讨论,全球物理AI市场预计从2026年的3830亿美元增长到2040年的3.26万亿美元。 触觉基础模型是这一增长的关键使能技术。
💡 一句话理解
FTP-1的开源策略(预训练模型、数据集、训练代码公开)将加速产业采用。这与视觉领域SAM的开源策略类似,旨在建立生态而非短期变现。
⚠️ 常见踩坑
产业影响的时间表取决于数据收集效率的提升。如果3000小时→10万小时需要5年以上,规模化部署将延后。
六、技术细节:如何基于FTP-1进行下游微调
6.1 微调场景一:已知传感器
如果你的传感器出现在FTP-1的21种预训练传感器中,微调流程相对简单:
- 下载FTP-1预训练checkpoint
- 准备下游任务数据:建议使用MTTS格式标注
- 冻结视觉-语言专家和触觉专家,仅微调动作头
- 评估:在测试集上验证成功率
适用场景:
- 使用GelSight、Sharpa DTC等主流传感器
- 任务类型与预训练数据相似(抓取、按压、插入)
6.2 微调场景二:未见传感器
如果你的传感器未出现在预训练中,需要额外训练传感器encoder:
- 收集传感器数据:建议至少100小时的操作数据
- 训练传感器encoder:将原始信号映射到MTTS功能区域
- 冻结预训练模块:触觉专家、功能区域embedding、共享Transformer
- 微调动作头:针对下游任务优化
关键优势:无需重新训练整个模型,只需训练轻量级encoder。
适用场景:
- 使用新型触觉传感器
- 任务类型与预训练数据差异较大
6.3 代码示例:MTTS映射逻辑
以下伪代码展示MTTS如何将不同传感器映射到统一的功能区域:
代码说明:
MTTSMapper负责将不同传感器映射到统一的功能区域- 根据传感器类型(图像/阵列/状态)选择不同的encoder
- 最终输出是24个槽位的特征表示,供触觉专家处理
# MTTS功能区域映射伪代码
class MTTSMapper:
def __init__(self):
self.num_slots = 24 # 24个功能区域
def map_sensor_to_slot(self, sensor_type, sensor_id):
"""将传感器映射到功能区域槽位"""
if sensor_type == "parallel_gripper":
# 平行夹爪:两个传感器映射到拇指尖和食指尖
return [0, 1] # 槽位0和1
elif sensor_type == "dexterous_hand":
# 灵巧手:0-14号槽位
return list(range(15))
elif sensor_type == "force_torque":
# 力/力矩传感器:15-20号槽位
return list(range(15, 21))
else:
raise ValueError(f"Unknown sensor type: {sensor_type}")
def encode(self, raw_data, sensor_type, sensor_id):
"""将原始传感器数据编码为统一格式"""
slots = self.map_sensor_to_slot(sensor_type, sensor_id)
# 根据传感器类型选择encoder
if sensor_type == "image":
features = self.vision_encoder(raw_data) # 轻量级ViT
elif sensor_type == "array":
features = self.cnn_encoder(raw_data) # CNN压缩空间结构
elif sensor_type == "state":
features = self.mlp_encoder(raw_data) # MLP处理状态量
# 将特征分配到对应槽位
slot_features = self.assign_to_slots(features, slots)
return slot_features💡 一句话理解
对于使用主流传感器(如GelSight、Sharpa DTC)的团队,可以直接使用FTP-1预训练checkpoint,无需重新训练encoder。
⚠️ 常见踩坑
未见传感器的encoder训练需要高质量数据。建议至少100小时的操作数据,覆盖目标任务的典型场景。
七、局限性与未来方向
7.1 当前局限性
FTP-1虽然是里程碑,但仍存在明显局限:
数据规模有限:3000小时相比视觉的数十亿图像仍有数量级差距。这限制了模型的表达能力和泛化范围。
传感器类型覆盖不全:虽然涵盖21种传感器,但仍有许多新型传感器未被包含。完全新型传感器的泛化能力尚未验证。
任务类型受限:预训练数据主要来自抓取、按压、插入等操作。对于更复杂的任务(如精密装配、柔性物体变形控制),效果可能有限。
实时性挑战:虽然独立触觉专家架构比adapter式融合更高效,但3亿参数的额外开销在边缘部署场景下仍需考虑。
7.2 未来研究方向
基于FTP-1的局限,我们识别出以下研究方向:
数据收集效率提升:
- 更高效的遥操作平台
- 自动化数据标注工具
- 仿真到真实的迁移技术
多模态对齐:
- 触觉-视觉-语言三模态统一表示
- 跨模态迁移学习
- 零样本触觉能力迁移
实时推理优化:
- 模型压缩和量化
- 边缘部署优化
- 毫秒级响应架构
更复杂的任务:
- 精密装配(如电子元件插装)
- 柔性物体操作(如布料折叠)
- 长程多步骤任务规划
7.3 与其他技术的融合
触觉基础模型不是孤立的技术,它需要与具身智能其他技术协同演进:
关键融合点:
💡 一句话理解
FTP-1的独立触觉专家架构是一个开放设计,未来可以替换为更高效的架构(如Mamba状态空间模型)而不影响整体框架。
⚠️ 常见踩坑
触觉基础模型的发展不能脱离硬件进步。如果灵巧手的自由度、力控精度没有突破,纯算法的提升会遇到天花板。
八、总结:触觉进入基础模型时代
8.1 核心要点回顾
FTP-1标志着触觉正式进入基础模型时代。 本文的核心要点:
问题定义:触觉传感器硬件碎片化导致算法无法跨设备迁移,这是触觉领域长期面临的根本挑战。
三大创新:
- MTTS:通过24个功能区域槽位实现触觉表示统一
- 独立触觉专家:保护VLM知识的同时学习触觉表示
- FTP-1-Dataset:3000小时、21种传感器、26个来源的异构数据
实验结果:已知传感器+17.2%,未见传感器+31.6%,证明触觉能力可以像视觉一样迁移。
产业影响:降低机器人厂商开发成本、加速传感器市场整合、标志具身智能进入新投资阶段。
8.2 对读者的建议
如果你是研究者:
- 关注MTTS标准化进程,考虑在自己的工作中采用这一框架
- 探索触觉-视觉-语言多模态对齐技术
- 研究更高效的触觉数据收集方法
如果你是工程师:
- 评估FTP-1在你现有机器人平台上的适用性
- 考虑基于FTP-1微调垂直场景解决方案
- 关注数据收集基础设施的建设
如果你是投资者:
- 触觉基础模型降低了算法层风险,但数据收集仍是瓶颈
- 遥操作平台、数据收集工具是关键投资方向
- 垂直场景解决方案(精密装配、柔性物体操作)是短期机会
8.3 展望
触觉基础模型的发展可能比视觉更快——因为视觉领域的经验可以直接借鉴。
FTP-1相当于触觉领域的ImageNet,为后续研究提供了标准化基础。如果数据收集效率能够在未来2-3年内提升一个数量级(达到10万小时级别),我们有望在2028-2029年看到触觉-视觉-语言三模态统一基础模型的出现。
这将是具身智能从实验室走向规模化部署的关键转折点。
💡 一句话理解
FTP-1的开源策略(预训练模型、数据集、训练代码公开)为整个行业提供了共享起点。建议尽早参与生态建设。
⚠️ 常见踩坑
触觉基础模型仍处于早期阶段。投资者应关注数据收集基础设施的进展,而非仅看模型架构。数据瓶颈可能延缓规模化部署。
🎯 相关面试题
巩固本篇知识点,备战 AI 岗位面试。
- 高级概念查看详解 →
Sim2Real 迁移有哪些挑战与方法?
仿真训练迁真机的核心难点是现实差距,常用域随机化、系统辨识与真机微调弥合。
- 高级概念查看详解 →
世界模型(World Model)在具身智能中起什么作用?
世界模型学习环境动态以预测未来,在「想象」中规划与训练,大幅提升样本效率。
- 高级概念查看详解 →
VLA(Vision-Language-Action)如何将视觉语言对齐到动作空间?
VLA 把视觉和语言 token 通过预训练 LLM backbone 映射到离散或连续动作空间,关键是动作 tokenizer 和对齐损失。
- 中级概念查看详解 →
机器人抓取与操作学习有哪些关键问题?
抓取链路是位姿估计→抓取检测→规划→力控,难点在泛化与接触动力学。