令人惊叹!
先进的机器人已经进入工厂内部,专门负责分拣快递的工作,它们的操作技巧已经达到了与人类相当的水平。
就在不久前,Figure公司发布了一款名为Helix的端到端通用控制模型,该模型赋予了机器人类似人类的感知、理解和行动能力。
现在,是时候展示这项技术的实际应用成果了。
一段视频中展示了多台Figure 02机器人有序地站在生产线上,高效地分拣快递包裹,甚至能够准确调整条形码的位置以便于扫描设备识别……
尤为关键的是,根据官方披露的信息,本次场景的适配工作仅耗时30天,而作为参照,首个客户案例的适配周期长达12个月。
端到端的机器学习技术使得Figure的机器人能够迅速掌握新的工作任务!
面对如此惊人的进步速度,网友们纷纷表示:人类劳动者面临前所未有的挑战!
除了演示视频,针对此次实验所针对的高速、小件包裹物流环境,Figure公司还发布了Helix模型进展的最新研究报告。
在与OpenAI合作终止后的上周五,Figure公司正式公布了这一重要成果Helix。
作为一个端到端式的通用控制模型,Helix只需通过自然语言指令,机器人就能抓取任何物品,即使是那些从未见过的物体(比如这个充满生机的仙人掌)。
更令人兴奋的是,两个机器人可以协同工作,并且它们共享同一套神经网络。
根据当时的详细介绍,Helix主要由两个核心系统构成,这两个系统经过端到端的联合训练,并且能够进行信息交流。
- 系统1:包含800万个参数的交叉注意力Transformer,专门负责执行底层控制。
- 系统2:基于在互联网大规模数据集上预训练的70亿参数开源视觉语言模型,用于场景分析和语言理解。
在此次物流场景应用中,Figure公司重点对系统1(底层控制)进行了多项创新改进:
1、隐式立体视觉(Implicit stereo vision):提升了机器人的3D空间感知能力,使得动作更加精准;
2、多尺度视觉表征(Multi-scale visual representation):结合局部细节和整体环境信息,提高了操作精度;
3、学习型视觉本体感知(Learned visual proprioceptio):每个Figure机器人现在都能够自主校准,简化了跨机器人的技能迁移过程;
4、运动加速模式(Sport mode):采用了一种高效的测试时加速技术,在保持高成功率的同时实现了更快的执行速度。
最为重要的是,Figure公司针对特定场景进一步研究了数据质量与数量之间的平衡关系,并初步得出结论:
仅使用8小时精心筛选的数据就能训练出灵活且适应性强的策略。
下面将详细展开说明。
在物流环境中,关键环节包括包裹处理和分类,主要任务是在传送带上转移包裹并确保条码能够被正确扫描。
听起来似乎简单,但如果要让机器人完全替代人类完成这项工作,将面临诸多挑战:
包裹在尺寸、形状、重量等方面存在巨大差异,机器人不仅需要能够抓取物品,还需要确定最佳的抓取时机和转移路径,甚至能够在放错位置后立即纠正。
为了实现这些目标,Figure公司首先增强了Helix系统1的视觉处理能力。
新一代系统1通过采用立体视觉骨干网络和多尺度特征提取网络来强化其空间理解能力。
简单来说,系统不再独立处理来自每个摄像头的图像特征,而是首先在多尺度立体网络中融合两个摄像头的特征,然后再进行标记化(Tokenize)处理。
这样做的好处是,保持了输入到交叉注意力transformer的视觉tokens数量不变,从而降低了计算成本。
同时,多尺度特征提取网络能够同时捕捉到细节信息和更广泛的上下文信息,这有助于提高操作的准确性和可靠性。
此外,为了解决在多个机器人上部署统一策略时遇到的难题,以及如何通过在线自我校准实现跨机器人策略迁移。
例如由于机器人硬件差异导致的观察和动作空间的分布偏移,传统的手动校准方法不适用于大规模机器人群体。
Figure公司开发了一个视觉自体感觉模型(visual proprioception model),该模型允许每个机器人通过自身的视觉输入进行自主校准,精确估算机械臂末端的(即抓取物体的部分)位置和姿态。
并且这种自我校准是在线完成的,也就是说机器人可以在工作的同时进行校准,这样就能最大程度地减少因校准而需要停止工作的时间。
顺便一提,在训练过程中,Figure公司排除了那些较慢的、遗漏的或失败的案例,不过特意保留了包含纠正行为的案例(非遥控操作员导致,自然产生)。
最后,为了达到并超越人类的操作速度,Figure公司采用了一种被称为“运动模式”的test-time加速技术。
具体来说,他们让系统1以每秒200次的频率输出一系列动作指令,这些动作指令被称为动作“块”(action “chunks”)。
然后采用了一种插值方法来加速这些动作块的执行。插值是一种数学方法,可以在原有数据点之间生成新的数据点。在这里,他们将原本的动作块(比如代表T毫秒的动作)通过插值缩短为0.8T毫秒的动作块,但是仍然以每秒200次的频率执行这些缩短后的动作块。
这种方法不需要改变机器人的训练过程,只是在test-time对动作执行进行加速。通过这种方法,Figure机器人能够在实际测试中实现高达20%的速度提升。
总之,技术升级让Figure公司加速推进人形机器人在工厂的应用。
官方提到的第1个客户,应该是指去年8月发布的Figure 02进入宝马工厂从事汽车装配的事情。
当时宝马工厂为机器人安排合适的工作花费了12个月的时间,而这一次,机器人正式在物流领域上岗仅用了30天。
也难怪Figure公司的创始人如此自信地宣布,未来四年计划交付10万台人形机器人。
另一方面,随着国内外众多机器人企业纷纷“进厂打工”,大家逐渐形成了一个共识:
2025年将是机器人量产的关键年份
从各家demo来看,人形机器人的技术已经基本成熟,因此接下来的竞争将主要围绕量产展开,并且要向实际生产场景迈进。
比如在一家上海机器人工厂内,大批“未来工人”正在紧张生产中。
嗯,竞争已经全面展开!
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获取前沿科技资讯
