> 百科问答

Figure推出视觉-语言-动作模型 通过语音指令让人形机器人做家务

发布时间:2025-02-25 10:37:11

据外媒报道,Figure创始人兼首席执行官Brett Adcock推出用于人形机器人的新机器学习模型——HelixHelix,这是一种“通用型”视觉-语言-动作(VLA)模型,将感知、语言理解和学习控制统一起来,以克服机器人技术领域的多项长期挑战。

(图片来源:Figure公司)

VLA是机器人技术领域的新现象,利用视觉和语言命令来处理信息,例如目前比较有名的Google DeepMind的RT-2,通过视频和大型语言模型(LLM)组合来训练机器人。Helix的工作方式与之类似,将视觉数据和语言提示结合起来,以实时控制机器人。

Figure表示:“Helix表现出强大的物体泛化能力,只需通过自然的语言提问,就能拾起数千种新型家居用品,这些物品具有不同的形状、大小、颜色,以及在训练中从未见过的材料特性。”

在理想的世界中,人们只需命令机器人做某事,它就会去做。据Figure介绍,这就是Helix的作用所在。该平台旨在弥合视觉和语言处理之间的差距。该机器人在收到自然的语言语音提示后,能够通过视觉来评估环境,然后执行任务。

Figure提供了一些示例,例如“将一袋饼干递给你右边的机器人”,或“从你左边的机器人那儿接过一袋饼干,并把它放在打开的抽屉里”。这些都涉及一对机器人的协同工作,因为Helix设计旨在同时控制两个机器人,即其中一个机器人协助另一个机器人来执行各种家务。

Figure重点介绍该公司在家庭环境中使用其02人形机器人所做的工作,以展示该VLM。众所周知,对于机器人来说,房屋环境是比较棘手的,因为缺乏仓库和工厂的结构和一致性。

让复杂的机器人系统进入家庭,主要问题在于学习和控制障碍。由于这些问题涉及高昂的成本,大多数人形机器人公司不会优先考虑家用机器人。一般来说,这种方法用于为工业用户制造机器人,以在解决家庭场景适应性之前提高可靠性和降低成本。

随着Helix的推出,Figure阐明家庭环境应该成为优先考虑事项。对于测试此类训练模型,这是具有挑战性和复杂性的环境。例如,教机器人在厨房里完成复杂的任务,使它们能够在不同的环境中采取广泛的行动。

Figure表示:“要让机器人在家庭环境中发挥作用,它们需要能够按需产生智能的新行为,尤其是对于它们从未见过的物体。目前,即使是教会机器人一种新行为也会耗费大量人力,或需要博士级专家进行数小时的手动编程,或需要进行数千次演示。”但是,考虑到家庭环境的复杂性,这都需要高昂的成本。

总体而言,与目前许多类似的人形机器人一样,Helix的研发工作仍处于非常早期的阶段。 

(责编: admin)

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:goldenhorseconnect@gmail.com

?