时隔一年再聊具身智能赛道,墨现科技创始人匡正有何新洞察?

admin

一年过去了,我们再次与墨现科技的创始人匡正探讨了目前备受关注的具身智能领域。

尽管并未亲身介入机器人整体制造,然而作为上游触觉感应装置的提供方,下游技术走向的任何调整都左右着当前的研发资源分配,正所谓“关键所在,务必明辨”,这也使他能从比较客观的立场观察这股具身智能的热潮。

以下是对话实录,由险峰整理(有删减):

一、“今年新出的灵巧手,都开始带触觉传感器了”

险峰,据了解你之前在WAIC参展结束,体验怎么样?有没有发现什么新奇玩意儿?

最深的体会是机器人非常火爆,WAIC一张399元的门票被炒到2800元,WRC的入场券会相对实惠些,因此现场都是带着孩子的家长们,人头攒动连过道都难以通行,商讨事情只能改约到邻近的星巴克进行。

最新进展是观察到部分硅谷机构引入了创新式训练方案,涵盖全新数据收集途径,或许有助于增强灵巧手的适应水平,这对传感器领域同样具有启示意义。

还有就是要说,中美创业组织的不同挺明显,海外多数是学术导向,更服务大企业客户,对技术算法很看重,彼此间想法也比较一致;国内则是由政府部门推动较多,更侧重物理设备,你用链条传动他就用丝杠传动,你用丝杠传动他就用磁力驱动,总之各家做法都不相同,特别突出独特性。

险峰:国外的团队更倾向于做研究,是不是因为他们的资金获取更为便利,又或者他们不像中国这边竞争这么激烈?

近期,我出席过几次硅谷的学术研讨会,会议结束后,美元基金方通常会咨询一些技术层面的疑问,例如某个指标的设定方式,这颇类似于大学课堂听讲后,学生向老师追问个人困惑与见解,然而国内环境则更侧重商业层面的考量,诸如产品何时能投入应用,以及与竞争对手相比有何独特之处。

这种情况或许也揭示了两个国家风险投资环境的差异,硅谷地区少数人开发出有潜力的算法,往往迅速被大型企业收购,数月之内该技术就可能出现在某个行业巨头的旗下,OpenAI与微软的关系就是此种模式的典型实例,但国内纯软件领域的发展则面临更多阻碍,先前的AI四小龙也是借助政府项目实现成长的,市场呈现出显著的赢家通吃现象,对于小型创业团队而言并不那么有利。

险峰:触觉对机器人来说,是必要条件吗?先前有人觉得,触觉感应装置还不够完善,获取的有用信息不多,在算法中的意义不大,单靠视觉也能处理,如今情况有变没有?

如今这种说法已基本消失,当前市场上灵巧手若不具备触觉功能,销售将会变得十分困难,技术层面相较于年初已显著成熟许多。

当前学术圈高度聚焦GLA的模型,众多研究都围绕触觉展开,原因是研究者们认识到,从根本原理出发,单纯依赖视觉存在局限,譬如我们无法仅凭观看林丹比赛的视频就掌握他打羽毛球的技艺,纯粹基于视觉的AI系统容易引发大量虚假现象和极端情况。

以取鸡胸肉为例,对常人而言十分容易,但对灵巧手而言颇为不易,因为它的构造兼具坚硬与柔软,仅凭视觉难以分辨骨头、表皮及肉质的具体位置,倘若为灵巧手配备触觉感应装置,其表现便可达到人类能力的百分之七十左右,能够相对完整地剥离鸡胸肉,其成果令人感到十分出乎意料。

当前仅依靠视觉功能的灵巧手,成功概率大多难以突破七成,但若结合触觉与视觉,七十个百分点的成功率或许只是基本标准,因此逐步形成共识,既然存在更优的途径,且费用增加有限,那么没有理由不采用,至于剩余的三十个百分点特殊情况,可以通过积累更多数据逐步完善。

事实上,自动驾驶行业早有相似情况发生,特斯拉的完全自动驾驶系统最初坚持仅使用视觉技术,后来也暗中增加了毫米波雷达功能,归根结底,这仍然是一个关于成本与效能的权衡,关键在于硬件开销必须控制得足够低廉。

险峰:年初我们谈及灵巧手皮肤,那时墨现的售价相当高,仅仅半年多时间,价格却大幅度降低,这是怎么回事?

匡正:其实是因为数据质量的需求降低了。

去年大家对于精度的标准十分严苛,单指就需要具备300到400个感应点,当时还存在一些特殊要求,部分客户希望增设温度和湿度感应装置,以便灵巧手能广泛感知环境温湿度,另有一些客户强调触觉系统必须能检测三维力度,要求每个感应单元都能分辨出x、y、z三个方向上的力道。

然而今年这些需求渐渐平息了,人们意识到准确度并非泛化的核心要素,实际上人类操作也不够精准,人体的触觉本质上是个未知领域,我们不清楚质感究竟是如何形成的。

因此当前普遍认为,有无触觉信息,模型效果差异显著,至于数据源自五十个还是五百个接触点,对模型而言似乎影响甚微,不妨先用低成本数据训练,后续问题再后续解决,人们对触觉信息的探索尚未触及核心领域。

二、资产价格大幅回落的另一种说法即是科技趋同,期待这个时日尽快来临

险峰:今年很多投资人都提到具身的泡沫问题,对此你怎么看?

我同样有这种感觉,或许来年泡沫就要破裂,但这并非坏事,泡沫破裂的别称也可以称作技术整合。

波士顿动力公司很早以前就着手研究四足与双足机器人,在国内处于领先地位很多年,但现在,若将今年宇树或智元的展示效果,与早期波士顿动力的那些视频资料进行对比,乃至将宇树去年的展示内容与之对照,都能看出显著的进步,实现了本质上的提升。

这次人工智能大型模型的进步,使中美在机器人设备方面的距离大致缩小了,这是确凿的,所有行业也在迅速发展,不能因为存在虚火就否定它。

事实上所有领域都难免会经历一个膨胀的阶段,起初自动驾驶领域存在多种技术方向,例如依靠单一传感器还是综合运用多种设备,各方对此争论不休,激光雷达技术更是细分出多种形态,有的装置在车辆前方,有的则布置在侧面,还有的具备旋转功能,而如今所有智能驾驶系统的外观都趋于一致。

技术一旦成熟,商业化进程就会加速,下游市场一旦规范,上游企业才能盈利,具身领域一旦泡沫破灭,所有踏实经营的企业都会受益,期待这种情况尽快发生。

险峰:然而展会上的孩子们,或许会真的以为机器人很快就能像人类一样活动,而并不清楚机器人内部其实是由真人进行远程操作的。

调整:可以这样说,情感层面的意义同样具有意义。回想从前去到兽园的时候,遇见罕见的动物时会感到激动,想象未来或许能在自家饲养一只熊猫,甚至饲养来自其他星球的生物。

如今机器人展览能够看作是一种虚拟动物园或数字庙会,对普通民众来说,它至少带来情感满足,能引导孩子们培养对科学的兴趣;对于制造商而言,这创造了新的发展机遇,销售了更多机器人,赢得了更大的社会关注,这对产业进步和技术革新都是积极影响,至少没有人因此受到损害。

当前机器人尚不能自主运作,以特斯拉展示为例,其能倒酒、能装爆米花,这些动作的完成确实依赖远程操控,但人工智能并非完全按照指令行事,它还会尝试揣摩人的意图。

比如你让机器人去撞一个障碍物,它会自动规避危险,停在一定距离,不会硬碰硬,这可以看作是人在帮机器人分步处理任务,这种机器人刚开始时效率肯定不如人,但可以用多台来弥补,比如你可以把控制室设在墨西哥,让三个墨西哥人远程控制三台机器人,这样算下来或许还是比一个美国工人划算。

具身智能的进步并非易事,它将逐步实现,如同自动驾驶技术般,需要经历多个阶段,作为从业者,我们更在意眼前的进展,以及即将迈入的新阶段,例如L2级别的辅助驾驶,即便尚未达到L5水平,它依然具有实际意义,至于未来具身智能将如何演变,这类长远规划反而显得次要。

险峰:你觉得现在的人形机器人属于L几?未来会发展到L几?

人形机器人若能达到L3级别,自动驾驶技术必然能迈入L4或L5阶段,毕竟前者所涉及的技术难度远超后者,目前自动驾驶的发展水平或许处在L1.5至L2的范围之内。

具身智能:泡沫破灭的另一种表达叫技术收敛_具身智能:泡沫破灭的另一种表达叫技术收敛_

险峰:机器人必须设计成人类模样吗?有些人觉得在工厂环境中,配备双臂和轮子的机器人或许更实用,那么你认为哪些领域是当前技术能够迅速实现商业化的?是工业领域、家庭领域还是军事领域?

我认为人形必须具备通用性,从道理上讲,如果你制作了一个人形,却不能通用,那其实也就没有必要做成这种形态。

双腿最突出的好处在于能够轻松跨越障碍物,不过工厂中的许多工作区域都是相对排列的,只需一个转身就能到达下一个流程,这种布局思路原本就是为了缩短工人的移动距离,从而提升生产效能,我认为没有必要将机器人设计成人的形态。

从这个角度来看,部分价值不高的工业生产环节,假如只求最低成本,或许两套灵活的机械臂配合一个支架即可,连移动平台都无需配置。

以取鸡胸肉为例,当前具备力反馈功能的工业机械臂,也能执行基础的剥离动作,只是售价高昂,单只机械臂的价格区间在10万到20万人民币之间,而采用双臂方案,配备两套手部与臂部装置,加上改造和预先训练的费用,一套双臂协作的灵巧手系统,整体投入完全可以控制在10万元以内,对于一些基础性工作完全能够胜任,并且可以迅速投入使用,其成本仅为工业机械臂的一半,在工业制造行业里,应当拥有广阔的发展空间。

家用服务机器人或许暂时难以普及,首先多数家庭缺乏足够空间,其次照顾老人儿童需要极高准确度,目前聘请菲律宾佣人成本不高,既能照料生活,也能教授英语,并且给予情感支持。

然而部分固定模式化的情境,诸如酒店房间维护,由于各房间布局并无显著差异,单台自动化设备具备持续移动并完成全部区域清洁的能力,不过仍需人工人员协助其应对特殊情况,这与过去自动驾驶出租车的运作方式相似。

军事领域其实更具创新潜力,毕竟对算法的依赖程度不高,未来战场上机器人无需配备枪械,双足结构装载十公斤TNT炸药,直接冲入战壕引爆,这种方案比无人机效果更佳,而且技术层面已经具备可行性。

三、关于遥操的争议

险峰:今年,众多机器人制造商开始关注触觉技术,这或许与特斯拉率先应用有关,对吧?Optimus至今未能实现量产,这表明技术层面可能还存在诸多挑战。

行业内普遍关注特斯拉的动向,我在技术层面与其有过多次沟通,不过目前Optimus仍处在研发阶段,没有立刻投入生产的计划,因此他们表现得并不迫切,而且特斯拉内部对于视觉技术与远程操控的路线选择也存在分歧,未来或许会有比较大的变动。

险峰:为什么遥操路线会有争议?

数据采集环节,特斯拉与宇树先前均采用动作捕捉结合强化学习的方法,具体是让穿戴动作捕捉外骨骼的人员进行示范,利用强化学习将采集到的信息提供给人工智能系统,最终形成动作序列,然而此类模型的普适性较差,难以实现广泛适应。

宇树的机器人能够存储特定动作,能够进行舞蹈或搏击表演,还能完成令人惊叹的空中翻转,然而它不清楚何时应当进行空中翻转,无法与特定事件建立联系,或者说不能自主创造动作的变体以应对环境变化。

摇晃练习形成的动作同样显得不流畅,你可以设想一下,一个人戴着虚拟现实设备,把一个小型夹持器当作自己的手,在远处为客人斟酒,动作的辨识度和完成效率都会降低,动作的真实感会大打折扣,因此某些特定的任务,可以通过摇晃操作来完成,但一些需要动作分解、分阶段进行的连续性任务,目前的技术还难以实现。

当然,或许也可以解释为资料积累尚显不足,譬如无人驾驶就是人形机器人最为基础的实践范例,能够将汽车视作一种自动化设备,其感知信息仅限于光学影像与探测器的信号,其行为指令仅包含向前行进、向后倒退、向左转向以及向右转向。

特斯拉依靠数百万用户多年的信息,才培养出如今的自动驾驶系统,因此,即便我们认定,预先学习是一个恰当的途径,当前仍缺少极为可观的信息积累,才能抵达理想状态。

大型模型仅能应对部分语言及视觉任务,而机器人需应对整个物理环境,与实际信息进行交互和联系,因此即便是看似基础的任务,诸如剥取鸡蛋、分类物件,也代表着高度泛化的要求,所需的信息量依然极为庞大,并且其中许多信息无法重复利用。

遥操可以看作是借助一套动补外骨骼,由人类在远处操控真实的机械手去抓取物体,这些数据仅能用于训练这只机械手,如果未来更换另一只手,由于型号参数不同,所有数据都需要重新进行训练。

此外,人们在硬件配置方面尚未达成一致意见,例如采用绳索传动还是丝杠传动,电机安装在前面还是后面,同时对于自由度的探讨,是五指结构还是四指结构抑或是三指结构,各方持有不同看法,因此相关数据的收集进展迟缓,现阶段最普遍的共识或许还是优先控制成本。

险峰:为什么降成本最后成为了共识?

这款具备六个活动轴的精密机械臂,售价高达数千元,只要不用于演奏钢琴,执行一些基础任务已经完全胜任,特斯拉的意图其实很明确,就是让自动化设备替代人工在工厂中进行拧螺丝作业,一个工人的小时工资是固定值,因此单台设备的成本上限变成了一个简单的算术问题,机械臂的价格自然就不可能定得太高。

特斯拉的展示里,他们教导机器人去拿电池,但若把五根手指改成三根,似乎差别也不算明显,我们在短视频上时常能看见这类内容,也有整理达人用小型夹子把衣物叠放整齐,这样一来,又得回到最初那个核心议题:怎样在费用与成效之间寻得最佳结合点。

险峰:像拧螺丝那样需要精心的任务,一个拥有六个活动关节的手能完成吗?

拧螺丝并非特别需要精巧的活儿,如今工厂里拧紧螺丝早已无需人工,只需你握住一台电动设备再按下启动键,螺丝刀转动几圈都由内部设定好的,多了少了都会发出警报,将来完全能够为机器人配备一套专用器具,技术层面上并非难以实现。

某些看似寻常的活计,诸如给车座蒙上皮套,操作员需将手探入座舱,取出一条形似Type-C的线缆,此过程里手会触碰到形形色色的管道与支架,最终从纷繁的线束中,精准地取出那根Type-C,而非USB或其他端口——诸如此类任务,老练的工人无需睁眼即可完成,但对机器人而言却颇为棘手。

由于所有线缆都具备柔性特征,当你移动其中一条时,其余线路也会随之位移,并且周边状况极不稳定,难以预测。这种操作流程极为繁琐,其难度堪比解谜,必须依靠人工智能即时分析后续行动方案。在总装阶段,存在大量类似工种,我认为难以全部通过自动化设备完成替代,即便采用机器方案,其经济效益也不及人工操作。

固定操作如用焊枪固定或拧螺丝,这些动作很容易按顺序执行,然而,一旦遇到需要适应不同情况的情况,哪怕光线或物体位置有轻微改变,当前的技术手段就难以应对了。

险峰:究竟需要多少资料,才能培养出真正的通用型机器人?依靠蛮力就能取得成功吗?

相同的情况我也询问过众多同行,他们给出的回应大致相同,都是说要等待学术界发布相关论文,因为大型模型本身确实存在一些不足之处,迫切需要一些创新性的想法来加以改进。

当前人们也在探索多种不同的创新途径,其中不乏有价值的尝试,例如模仿学习这种模型。

它的思路在于,既然人能借助摆动来操控一个机械手,表明我们的大脑完全能够掌握人手到机械手的动作转换,因此可以首先训练出一个手的模型,比如让一个工人戴着防护装备,抓取各式物品,汇总他的视觉感受+触觉反馈+关节坐标的信息,此时会得到一个模型A,但这个模型A与机器人本身毫无关联,它习得的是人手怎样进行抓握。

全球人口共计七十亿,每人之手的活动方式大同小异,只要我积累的资料足够丰富,原则上能够将模型A优化得极为出色,接着我在模型A的下方附加一个模型B,该模型负责将人的活动形态转变为机械手的操作模式。

需要留意的是,这个机械手以前从未接受过任何训练,不过它能被上层模型A操控,将来模型B可以替换成多种不同规格的机械臂,基础硬件配置差异极大,却无需再重新开始训练,这在一定层面上达成了通用化。

这当然只是个设想,目前还没有人真正实现过,不过国内已有两三家企业在进行尝试,或许很快就会发表一些研究成果,我认为这是一个值得肯定的动向,过去大家可能过于关注硬件层面,许多资源雄厚的大企业也不例外,但实际上宇树的硬件已经相当出色,无论是操作便捷性还是适应多样性,只要能想到的操作,它的机器人都能完成,中国在硬件方面已经非常领先,确实没有必要再进行无谓的竞争。

一些看似简单的问题,例如手部精细操作,还有长时间工作的训练,今年大公司才刚开始零星进行探索,结果反而是规模较小的团队表现更出色,比如最近我看到了灵初的机器人打麻将,尽管动作缓慢,不够连贯,但整体完成效果相当不错,从抓取牌、整理牌、打出牌,至少能将一个复杂的工作流程完整执行,并且成功率相当高。