做人形机器人想“碾压”特斯拉,Figure还有点“嫩”
机器人赛道又“卷”起来了,斯坦福大学机器人Mobile ALOHA炒菜视频的“火力”劲儿刚过,Figure01又丝滑地将人类指令转化成动作,成为了第一个“递”苹果的给人类的人形机器人。就在前几天,黄仁勋在英伟达GTC大会上秀了一把迪士尼“卖萌”机器人Orange和Green,它们不仅会走路,还会向老黄“撒娇”。
但是这些机器人还停留在实验室阶段,距离投入市场应用还遥遥无期,或许马斯克可以考虑在下一个特斯拉AI Day,发布一点关于Optimus令人惊艳、可投入生产应用环节的成熟技能,才能应对大家对各种机器人“秀”的审美疲劳。
马斯克最近或许有点“亚历山大”,很多人猜测,Figure01的火爆会让一直“不待见”Open AI的马斯克感到恼火,因为担心Figure01会比擎天柱更快到达“通用人形机器人”的状态。
实际上,Figure01的整体实力相比Optimus还有一段距离,Figure创始人Brett Adcock一直高喊要做“有用的”人形机器人,但论应用,Optimus或许会更领先。
业内有一个主流观点,通用机器人等同于“人形机器人”,但要做好一个人形机器人并不容易,需要在软件、硬件、感知、应用等层面都有积累。
Figure01在这则视频中,呈现地更多的是软件层面的技能,它调用Open AI的接口,实现从语言或视觉到动作的顺滑过度。但从本体层面来看,仔细观察视频中Figure01的动作,会发现它只呈现了机器人的“上半身”,重点展示双手的操作,而双手的灵活度比较有限。此外,从Figure01公布的往期视频来看,它的走动能力也并不是所有人形机器人中最好的一个。
所以,仅仅凭借一则2分多钟时长的视频,很难看出Figure01真实实力,也无法得出它代表了“通用机器人”新高度的结论。
人形机器人的核心价值,是替代人类劳动力,人形机器人拥有灵动的双手和聪明的大脑非常关键,但Figure01的“双手”和“大脑”能力并没有超过擎天柱。
原始人关注双手,是人类在进化过程中的第一道门槛。人形机器人要想走向应用,必须要有灵活的机械手。
海银资本创始合伙人王煜全对腾讯科技表示,在人形机器人领域,机械手的重要性占据半壁江山。虽然Figure01在智能层面的突破远远盖过硬件层面,但Figure01在机械手方面并没有领先行业的技术突破。
在demo视频里,Figure01全程只展示了“上半身”,而上半身全程几乎只有双手在活动,不论是在双手配合度上,还是在手的抓握能力上,Figure01都没有展现出令人惊艳的成绩。
Figure01双手由神经网络visual-action transformer策略驱动,它可以将像素直接映射到动作,仔细拆解视频来看,Figure01双手一共配合了4次:
从双手配合度来看,Figure01的动作都是简单地从“抓取”到“放下”,并且抓取物体的标的都是“大件”——苹果、杯子和盘子,没有进一步体现诸如“捏”这类精细运动。
马斯克在几个月前公布的Optimus Gen 2也拥有类似的“左手递给右手”双手配合能力,与Figure01不同的是,Optimus Gen 2选取的物体标的是鸡蛋,相比较于盘子、杯子、苹果,抓取鸡蛋的难度更高,因为抓取一枚鸡蛋力气大了会破,力气小了容易滑落。
根据《中国电子报》报道,机器人完成抓取动作,需要具备压力感知、触力感知和柔性微压力感知能力,触力计算出来是力的大小,压力传感检测出来的是压强。Optimus Gen 2捏鸡蛋的原理,是机械手先通过传感器感知判断物体的压力,再计算抓握物体所需要的力度。马斯克选择用鸡蛋作为Optimus Gen 2的标的,或许就是想要证明如果它能够计算出抓握一枚鸡蛋所需用到的力,并完整地完成这一套动作,那么成功抓握其它物体更不在话下。
对比机械手感知驱动的路线采用的是视觉运动识别路线,Optimus Gen 2采用的是触觉感知反馈路线。前者通过安装在机械手或其工作环境中的摄像头、激光扫描仪等视觉传感器,帮助机械手识别物体形状、尺寸、位置、运动状态等信息,这也是机械手中最常用的感知系统。后者通过触觉传感器来收集物体的质地、硬度等信息,使得机械手模拟人类的触觉反应,帮助机器人做更精细的操作,比如抓握易碎的脆弱物体等。
机械手是一个非常“卷”的行业,能匹敌Optimus Gen 2的并不多,但超越Figure01的潜在对手却很多。
首先,Optimus Gen 2机械手拥有11个自由度,Figure01只有6个自由度,老牌人形机器人波士顿动力旗下的Atlas也在不断扩张手部自由度,Atlas去年年初才开始在手臂末端装上“螃蟹夹”,在最新的演示视频中,Atlas也才刚刚进化成三根手指和两个关节,手指在手掌处共用一个枢轴点,能够徒手抓住比自己手臂还粗的螺丝,将其搬运到目标位置。
然而,Atlas的手更适合搬运重物,虽然它没有测试过是否能拿捏好一枚鸡蛋,但Atlas曾在尝试拿起一块木头时,因力度不适导致木头被损坏。
其次,不断有新的玩家涌入机械手领域,行业竞争激烈。比如1月份火爆的Mobile Aloha,可以通过远程操控帮助机器人完成模仿学习,并结合静态Aloha数据,顺畅完成炒虾仁的一整套动作。
李飞飞团队也在研发类似的机械手,它能够拧开茶叶杯盖,用夹子抖落茶叶到茶杯中,整个泡茶动作行云流水,并且无需远程操控,凭借一副特殊手套,就能通过传感器捕捉手部精细运动。
MIT在2023年开发了一款“指形传感器”GelSight Svelte,MIT官方显示,GelSight Svelte具有柔性骨架,通过测量手指触摸物体时脊柱的弯曲程度,便可以估计施加在传感器上的力,它可以执行多种抓握操作,包括捏握、横向捏握以及使用三个手指的整个感应区域的动力握持。
除了学术派,企业派也非常积极,他们执着地追求机械手无限逼近人类。比如,机械手领域里不乏尝试做人造皮肤的公司,今年2月份,2021年成立的初创公司Clone Robotics推出了其第18版合成手,它拥有27个自由度,就像真人的手一样,包含骨骼、肌肉和韧带。这款机械手的骨骼由成本低廉的碳纤维组成,其余部分由软材料构成,包括37块肌肉,可以承受15磅的重量。
“执着派”们除了追求触感接近人类,也追求形态无限逼近人类,比如他们认为机械手也应该做成五指,而不是停留在二指、三指。
但人手结构非常复杂,拥有27块骨头、多个关节、超过100条肌腱,想要模仿类似人类的双手,并完成复杂运动的协调和精准的精细动作,会面临非常大的挑战。
人的双手也非常灵活,能够适应各类物体的形状、大小和质地,并且人类的感觉神经能够提供关于触摸、温度和疼痛的反馈,而机械手要完成同样的能力,需要集成先进的传感器来模拟这种感知能力,并且实时调整机械手的行为,这就需要复杂的工程和算法设计。
在机械手赛道上奔跑的玩家接连不断,相比较而言,Figure01展示的机械手,并没有更高一筹。
如果人形机器人“听不懂”人类的语言,“人机协作”会困难重重,拥有聪明的脑袋对人形机器人应用至关重要。
Figure01的智能确实令人惊艳,但这个能力不是Figure自己“长”出来的,它归功于Open AI,其它机器人想追赶上也并非难事。
Figure技术负责人、原谷歌Deep Mind科学家Corey Lync在X上分享了这款人形机器人的技术原理,Figure01智力的构建可以被拆解成三个层面:
根据戴盟首席科学家及联合创始人、香港科技大学机器人学院院长王煜教授介绍,如果类比人类,这三个层面的相互转化涉及到“大脑”和“小脑”两个能力模块:
● 大脑阶段,即涉及机器人交互,信息输入及任务决策的过程,就相当于人类将看到的环境图像,转化为信息存储在大脑,并根据环境决策结合指令,规划如何完成任务。如果映射到人形机器人身上,就是通过大语言模型理解人类信息,并利用视觉传感器获取图像信息的过程。这里所调配的大脑能力,用到的是类似PaLM-Saycan的模型,Palm-Saycan是谷歌两年前就研发出的方法,它可以帮助机器人通过思维链提示和执行请求的方案,来更好地完成复杂任务。
● 小脑阶段包括两个部分,第一部分是动作执行能力,相当于大脑将图像信息进行处理后,转化为运动指令,并驱动机器人运动的过程,这里所调配的是小脑能力,用到的是类似RT-1的模型,它承接“大脑”环节给出的指令,输出机器人听得懂的操作,来控制机器人的运动。第二部分是全身控制功能,在人形机器人在进行诸如行走或其他可能影响到他人和自身平衡性的动作时,能够保证其安全和平衡。
拆解下来后,不难发现Figure01采用的是pipeline形式,即从接受信息到运动的整个过程,都是环环相扣的流水线般的流程,王煜教授表示,“Figure01之所以采用pipeline形式,是因为这样便于每个阶段都可以被追溯到,如果训练整个一套模型数据量非常大,pipeline状态能够最快地让机器人变得有用起来。”
在王煜教授看来,这次Figure01主要展示的是添加“大脑”之后,机器人处理复杂事务能力的提升。这次OpenAI提供的GPT接口对机器人任务进行了一定的优化,使得其环境判断能力更强,响应速度更快。但PaLM模型本身的实现,对于任何具有多模态能力的模型来说都不困难。
马斯克前段时间刚刚开源了自己的大模型Grok,虽然这款3140亿参数的大模型还不具备多模态能力,其Benchmark也不及GPT 3.5。但根据xAI官网称,Grok接下来还会重点发展长文本理解和多模态能力。因此在机器人通过API接入下一代Grok后,实现与Figure01类似的能力也并非难事。
最后,相比较于Optimus,Figure01的“小脑”能力如何?可以从运动的流畅度、速度和平衡性几个方面,来考察它的“小脑”能力。
在12月Optimus Gen2的演示中,马斯克的团队特别提到其能够完成诸如拿鸡蛋、分物品的能力是“端到端"的,这说明虽然并未接入高级大脑层的应用,但Optimus Gen2也已经加载了类似RT-1的功能。从基础控制算法框架应该和Figure01差距不大。
但Figure01另一个让人惊艳的能力,是其动作的迅捷和流畅速度。王煜教授表示,”Figure01 10Hz的图像识别能力和200Hz的动作控制水平已经超越了Optimus",因此,Figure01的动作才十分流畅,几乎没有“延迟”。
在官方视频中,Figure01具备很多技能,比如走路、腰部扭动、搬箱子、制作咖啡拉花等。Optimus的表现也不差,它不仅会走路,还会深蹲、做瑜伽、根据颜色对物体进行归类放置等。
从已有的视频观察,Optimus在平衡度上更胜一筹,毕竟它能做到以单腿站立姿态稳稳地做瑜伽。通过观察二者的步态,Optimus迈步的顺滑度略强于Figure01,而后者步行姿势更像“裹脚”迈碎步的姿态。
从底层的运动规划算法来看,Optimus可以继承特斯拉在自动驾驶领域的积累,比如对复杂环境的感知、对他人行为的预测、复杂任务的决策和执行等。虽然二者应用场景不同,但它们在算法和技术理念层面,尤其在神经网络层面的技术积累上,存在很多共通之处。
总体而言,与其说Figure01展现的互动是人形机器人的成功,不如说是OpenAI迈向平台化的成功。“OpenAI如果能将训练人形机器人的那部分模型系统化、标准化,那么它将会非常有竞争力”,王煜全对腾讯科技说道。
虽然人形机器人几乎成为通用机器人的代名词,但王煜全认为,如果过于执着于做人形,方向就走偏了,还可能会因此带来很多不必要的成本。他认为,做机器人的思路应该切换到应用上,如果聚焦应用,其实机器人的手指最多3-4根就足够了,也不必关注让机器人行走起来的是双腿还是轮子。
在经济学中,人是绝对理性、只考虑利益最大化的。但在实际生活中,却存在着很多为了寻找理想而选择牺牲成本的人。
就像Figure、Optimus这些人形机器人背后的人,他们一直孜孜不倦地追求着理想中的“机器人”。