Figure推出视觉-语言-动作模型通过语音指令让人形机器人做家务

发布时间：2025-02-25 10:37:11

据外媒报道，Figure创始人兼首席执行官Brett Adcock推出用于人形机器人的新机器学习模型——HelixHelix，这是一种“通用型”视觉-语言-动作（VLA）模型，将感知、语言理解和学习控制统一起来，以克服机器人技术领域的多项长期挑战。

（图片来源：Figure公司）

VLA是机器人技术领域的新现象，利用视觉和语言命令来处理信息，例如目前比较有名的Google DeepMind的RT-2，通过视频和大型语言模型（LLM）组合来训练机器人。Helix的工作方式与之类似，将视觉数据和语言提示结合起来，以实时控制机器人。

Figure表示：“Helix表现出强大的物体泛化能力，只需通过自然的语言提问，就能拾起数千种新型家居用品，这些物品具有不同的形状、大小、颜色，以及在训练中从未见过的材料特性。”

在理想的世界中，人们只需命令机器人做某事，它就会去做。据Figure介绍，这就是Helix的作用所在。该平台旨在弥合视觉和语言处理之间的差距。该机器人在收到自然的语言语音提示后，能够通过视觉来评估环境，然后执行任务。

Figure提供了一些示例，例如“将一袋饼干递给你右边的机器人”，或“从你左边的机器人那儿接过一袋饼干，并把它放在打开的抽屉里”。这些都涉及一对机器人的协同工作，因为Helix设计旨在同时控制两个机器人，即其中一个机器人协助另一个机器人来执行各种家务。

Figure重点介绍该公司在家庭环境中使用其02人形机器人所做的工作，以展示该VLM。众所周知，对于机器人来说，房屋环境是比较棘手的，因为缺乏仓库和工厂的结构和一致性。

让复杂的机器人系统进入家庭，主要问题在于学习和控制障碍。由于这些问题涉及高昂的成本，大多数人形机器人公司不会优先考虑家用机器人。一般来说，这种方法用于为工业用户制造机器人，以在解决家庭场景适应性之前提高可靠性和降低成本。

随着Helix的推出，Figure阐明家庭环境应该成为优先考虑事项。对于测试此类训练模型，这是具有挑战性和复杂性的环境。例如，教机器人在厨房里完成复杂的任务，使它们能够在不同的环境中采取广泛的行动。

Figure表示：“要让机器人在家庭环境中发挥作用，它们需要能够按需产生智能的新行为，尤其是对于它们从未见过的物体。目前，即使是教会机器人一种新行为也会耗费大量人力，或需要博士级专家进行数小时的手动编程，或需要进行数千次演示。”但是，考虑到家庭环境的复杂性，这都需要高昂的成本。

总体而言，与目前许多类似的人形机器人一样，Helix的研发工作仍处于非常早期的阶段。

（责编： admin）

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：goldenhorseconnect@gmail.com

Figure推出视觉-语言-动作模型 通过语音指令让人形机器人做家务