最近,Figure AI 发布了首个通用视觉-语言-行动(VLA)模型——Helix,其能像人类一样推理,将感知、语言理解和学习控制融为一体,可以通过自然语言直接控制人形机器人整个上半身。
Helix 可以在没有任何特定任务演示或大量手动编程的情况下,快速生成长程、协作性的灵巧操作。其实现了多个“首个”:
完整的上半身控制:Helix 是首个能够对整个人形上半身(包括手腕、躯干、头部和单个手指)输出高速率连续控制的 VLA。
多机器人协作:Helix 是首个可在两个机器人上同时运行的 VLA,使它们能够解决共享的长程操作任务,操作它们从未见过的物品。
可直接商用:Helix 是首个在完全板载嵌入式低功耗 GPU 上运行的 VLA,可立即投入商业部署。
配备了 Helix 的 Figure 机器人只需根据自然语言提示,就能拾取几乎任何小型家用物品,包括数以千计它们从未见过的物品。
例如,当被要求“拾起沙漠中的物品”时,Helix 会识别出玩具仙人掌,选择最近的手,并执行精确的运动指令将其牢牢抓住。
与之前的方法不同,Helix 使用一组神经网络权重来学习所有行为——拾取和放置物品、使用抽屉和冰箱以及跨机器人交互——而无需针对具体任务进行微调。
Figure AI 在 X 上表示,“机器人的功能如果不发生重大变化,就无法进入家庭领域,现在,我们的机器人几乎可以处理任何家庭用品。”
人形机器人的“New Scaling”
家庭是机器人技术面临的最大挑战。与受控的工业环境不同,家庭中充斥着无数物品——精致的玻璃器皿、皱巴巴的衣物、散落的玩具——每件物品的形状、大小、颜色和质地都难以预测。机器人要想在家庭中发挥作用,就必须能够按需生成智能的新行为,尤其是针对它们从未见过的物体。
当前的机器人技术如果不作出重大改变,就无法在家庭中使用。目前,即使是教机器人学会一种新行为,也需要大量的人力:要么是数小时的博士级专家手工编程,要么是数千次的演示。如果考虑到家庭问题的实际规模,这两种方式的成本都非常高。
图|获取机器人新技能的不同方法的 Scaling 曲线。在传统的启发式操作中,技能会随着手动编写脚本的博士们而增长;在传统的机器人模仿学习中,技能随着收集到的数据增长;而在 Helix 中,新技能可以用语言即时指定。
Figure AI 团队认为,人工智能的其他领域已经掌握了这种即时泛化的方法,如果能够简单地将视觉语言模型(VLM)中捕捉到的丰富语义知识直接转化为机器人动作,将从根本上改变机器人技术的发展轨迹。
突然间,只需用自然语言与机器人对话,就能立即获得曾经需要数百次演示的新技能。但关键问题是:他们如何从 VLM 中提取所有这些常识性知识,并将其转化为可通用的机器人控制呢?
于是,他们构建了 Helix。
Helix:用于整个上半身控制的“系统 1、系统 2”VLA
Helix 是首创的 “系统 1、系统 2 ”VLA 模型,用于对整个仿人上半身进行高速、灵巧的控制。
之前的方法面临着一个基本的权衡:VLM 骨架通用但不快速,而机器人视觉运动策略快速但不通用。Helix 通过两个互补系统解决了这一问题,这两个系统经过端对端训练,可以进行通信:
系统 2:经过互联网训练的板载 VLM,工作频率为 7-9 Hz,用于场景理解和语言理解,可广泛应用于各种物体和环境。
系统 1:快速反应视觉运动策略,将系统 2 生成的潜在语义表征转化为 200 Hz 的精确连续机器人动作。
这种解耦架构允许每个系统以其最佳时间尺度运行。系统 2 可以“慢思考”高层次目标,而系统 1 则可以“快思考”实时执行和调整动作。例如,在协作行为中,系统 1可快速适应伙伴机器人不断变化的动作,同时保持系统 2 的语义目标。
与现有方法相比,Helix 的设计具有几大优势:
速度和通用性:Helix 的速度可与专门的单任务行为克隆策略相媲美,同时还能对数千个新测试对象进行零样本泛化。
可扩展性:Helix 可直接输出高维动作空间的连续控制,避免了先前 VLA 方法中使用的复杂动作 token 化方案,这些方案在低维控制设置中取得了一定成功,但在高维仿人控制中面临扩展挑战。
结构简单:Helix 使用标准架构——系统 2 使用开源、开放权重的 VLM,系统 1 使用基于 transformer 的简单视觉运动策略。
关注分离:将系统 1 和系统 2 分离开来后,可以分别对每个系统进行迭代,而不必受制于寻找统一的观察空间或动作表示法。
模型和训练细节
1.数据
他们收集了一个高质量、多机器人、多操作员的数据集,其中包含各种远程操作行为,总计约 500 小时。为了生成受自然语言约束的训练对,他们使用了自动标注 VLM 来生成后见(hindsight)指令。VLM 处理来自机载机器人摄像头的分段视频片段,并给出提示:“你会给机器人下达什么指令,以实现视频中的动作?所有在训练过程中处理过的项目都不在评估范围内,以防止污染。
2.架构
这一系统由两个主要部分组成:系统 2 是 VLM 骨干,系统 1 是潜条件视觉运动 transformer。系统 2 基于一个 7B 参数的开源、开放权重 VLM,并在互联网规模的数据上进行了预训练。它将单目机器人图像和机器人状态信息(包括手腕姿势和手指位置)投射到视觉语言嵌入空间后进行处理。结合指定所需行为的自然语言指令,系统 2 将所有与任务相关的语义信息提炼为一个连续的潜在向量,并将其传递给系统 1,作为其底层动作的条件。
系统 1 是一个 8000 万参数的交叉注意力编码器-解码器 transformer,用于处理底层控制。它依靠一个完全卷积、多尺度的视觉骨干网进行视觉处理,该骨干网由完全在模拟中完成的预训练初始化而成。系统 1 接收与系统 2 相同的图像和状态输入,但处理频率更高,以实现反应更灵敏的闭环控制。来自系统 2 的潜向量被投射到系统 1 的 token 空间,并与来自系统 1 视觉骨干的视觉特征沿序列维度进行串联,从而提供任务条件。
系统 1 以 200hz 的频率输出完整的上半身仿人控制,包括所需的手腕姿势、手指弯曲和外展控制,以及躯干和头部方向目标。他们在动作空间中添加了一个合成的“任务完成百分比”动作,使 Helix 能够预测自己的终止条件,从而更容易地对多个学习行为进行排序。
3.训练
Helix 采用完全端到端训练方式,通过标准回归损耗将原始像素和文本指令映射为连续动作。梯度通过用于调节系统 1 行为的潜在通信向量从系统 1 反向传播到系统 2,从而对两个组件进行联合优化。Helix 无需针对特定任务进行适应性调整;它只需保持单一的训练阶段和单一的神经网络权重集,而无需单独的动作头或每个任务的微调阶段。
在训练过程中,他们会在系统 1 和系统 2 输入之间添加一个时间偏移。该偏移量经过校准,与系统 1 和系统 2 部署推理延迟之间的差距相匹配,确保在训练中准确反映部署过程中的实时控制要求。
4.优化的流推理
Helix 的训练设计可在 Figure 机器人上实现高效的模型并行部署,每个机器人都配备了双低功耗嵌入式 GPU。推理流水线分为系统 2(高级潜规划)和系统 1(低级控制)模型,每个模型都在专用 GPU 上运行。系统 1 作为异步后台进程运行,消耗最新观测数据(机载摄像头和机器人状态)和自然语言指令。它不断更新共享内存中的潜在向量,该向量对高级行为意图进行编码。
系统 1 作为一个独立的实时进程执行,维持着整个上半身平滑动作所需的关键 200Hz 控制回路。它同时获取最新的观测数据和最新的系统 2 潜在向量。系统 2 和系统 1 推理之间固有的速度差异自然会导致系统 1 以更高的时间分辨率处理机器人的观察结果,从而为反应控制创建更紧密的反馈回路。
这种部署策略有意反映了训练中引入的时间偏移,最大限度地缩小了训练-推理分布差距。异步执行模型允许两个进程以各自的最佳频率运行,允许以最快的单任务模仿学习策略速度运行 Helix。
表现怎么样?
1.精细的 VLA 整个上半身控制
Helix 能以 200Hz 的频率协调 35-DoF 的动作空间,控制从单个手指运动到末端执行器轨迹、头部注视和躯干姿势等一切动作。头部和躯干控制带来了独特的挑战,因为它们的移动会同时改变机器人所能触及的范围和所能看到的范围,从而形成反馈回路,这在历史上曾造成不稳定。
机器人在调整躯干以获得最佳触及范围的同时,还能用头部平稳地跟踪双手,同时保持手指的精确控制以进行抓取。从历史上看,在如此高维的动作空间中实现如此高的精确度,即使是对单个已知任务而言,也是极具挑战性的。研究团队表示,目前还没有任何 VLA 系统能够在保持跨任务和跨对象通用能力的同时,实现如此程度的实时协调。
2.零样本多机器人协调
他们在一个极具挑战性的多机器人操控场景中将 Helix 推向了极限:两个 Figure 机器人之间的协作零样本杂货存储。
结果显示,机器人成功地操纵了全新的杂货——在训练过程中从未遇到过的物品——展示了在不同形状、尺寸和材料上的强大泛化能力。此外,两个机器人使用相同的 Helix 模型权重进行操作,无需进行特定的机器人训练或明确的角色分配。它们通过自然语言提示实现协调,例如“将一袋饼干递给你右边的机器人”或“从你左边的机器人手中接过一袋饼干并将其放入打开的抽屉”。这标志着首次展示了多个机器人使用 VLA 进行灵活、扩展的协作操纵,特别是在成功处理全新物体方面意义重大。
3.智能涌现——“捡起任何东西”
他们发现,配备 Helix 的 Figure 机器人只需接收“拿起 [X]”的指令,就能拿起几乎任何小型家用物品。在系统测试中,机器人成功处理了杂乱物品中的数千件新奇物品——从玻璃器皿和玩具到工具和衣物——而无需任何事先演示或定制编程。
尤其值得注意的是,Helix 是如何在互联网规模的语言理解和精确的机器人控制之间架起桥梁的。例如,当提示“拿起沙漠中的物品”时,Helix 不仅能识别出符合这一抽象概念的玩具仙人掌,还能选择最近的手,并执行精确的运动指令,牢牢地抓住它。
这种通用的“从语言到行动”的抓取能力为在非结构化环境中部署人形机器人开辟了令人兴奋的新可能性。
“仅仅触及了可能的表面”
在这项研究中,Helix 展现出了训练效率高且仅需要单一权重集的特点。
在训练效率方面,Helix 以极少的资源实现了强大的对象泛化能力。研究团队总共使用了约 500 小时的高质量监督数据对 Helix 进行训练,其规模仅为之前收集的 VLA 数据集的一小部分(<5%),并且不依赖于多机器人-具身收集或多阶段训练。他们注意到,这种收集规模与现代的单任务模仿学习数据集更相近。尽管对数据的要求相对较低,但 Helix 仍能扩展到更具挑战性的上半身人形控制动作空间,并提供高速率、高维度的输出。
同时,Helix 只需一个统一的模型,就能在不同任务中实现强大的性能。只需使用一组神经网络权重(系统 2 为 7B,系统 1 为 8000 万),Helix 就能在各种容器中拾取和放置物品,操作抽屉和冰箱,协调灵巧的多机器人交接,并操控数千种新奇物品。
研究团队表示,虽然这些早期成果确实令人兴奋,但这仅仅触及了可能的表面。他们急切地想知道,当他们将 Helix 的规模扩大 1000 倍甚至更多时会发生什么。
来源:科普中国
供稿人:科普部
审核人:科普部