人类“了解自己的极限”,可能需要做一些事情,比如适度锻炼。然而,对于机器人来说,这代表着学习约束或机器环境中的特定任务限制,以便安全适当地完成家务。
(图片来源:麻省理工学院)
想象一下,当机器人不了解周围环境的物理特性时,人们让它去打扫厨房。这个机器装置如何生成实用的多步骤计划,以确保房间一尘不染?使用大语言模型(LLM)有可能接近目标,但如果该模型仅进行文本训练,则可能错过关于机器人物理限制的关键细节,例如它可以到达多远,或者附近是否有需要避开的障碍物。如果一直坚持只使用LLM,最终很可能只能清除地板上的意大利面污渍。
据外媒报道,为了指导机器人执行这些开放式任务,麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)研究人员使用视觉模型来查看机器附近的情况,并对其约束进行建模。该团队的策略包括通过LLM草拟一个计划,并在模拟器中进行检查以确保其安全和可行性。如果这个动作序列不可行,该语言模型将生成新的计划,直至实现机器人可以执行的计划。
研究人员将这种试错方法称为“通过持续约束满足代码来规划机器人(Planning for Robots via Code for Continuous Constraint Satisfaction,PRoC 3S)”。该方法可以测试长期计划以确保它们满足所有约束,并使机器人能够执行多种任务,例如写单独的字母、画星星、排序和在不同位置放置方块。未来PRoC 3S可以帮助机器人在房屋等动态环境中完成更复杂的家务,比如被提示去做由许多步骤组成的一般性家务(例如“给我做早餐”)。
博士生Nishanth Kumar SM’24表示:“LLM和常规机器人系统(如任务和运动规划器)无法单独执行这些任务,但它们的协同作用可能解决开放式问题。我们正在实时模拟机器人周围的情况,并尝试许多可能的行动计划。视觉模型有助于创建非常逼真的数字世界,使机器人能够推理出长期计划中的每步可行行动。”
这种方法使用基于互联网上文本进行预训练的LLM。在要求PRoC3S执行任务之前,该团队为其语言模型提供与目标任务(如绘制星星)相关的示例任务(例如绘制正方形)。该示例任务包括活动描述、长期计划,以及关于机器人环境的详细信息。
在模拟过程中,PRoC3S成功画出星星和字母的比例为80%。它还能将数字积木堆叠成金字塔和线条,并准确地放置物品,比如把水果放在盘子里。在这些数字演示中,比起“LLM3”和“代码即策略(Code as Policies)”等可比性方法,该CSAIL方法更一致地完成了所请求的任务。接下来,CSAIL工程师将这种方法带到了现实世界,制定并在机械臂上执行计划,教它将积木摆成直线。PRoC3S还使机器能够将蓝色和红色积木放入对应的碗中,并将所有物体移动到桌子中心附近。
这些发现表明LLM如何能够制定更安全的计划,使人类可以放心地将其投入实践。研究人员构想了一种家用机器人,它可以接受更普通的请求(例如“给我拿些炸薯片”),并可靠地找出所需的具体执行步骤。PRoC3S可以帮助机器人在相同的数字环境中测试计划,以找到有效的行动路线,更重要的是,给用户带来美味的小吃。
对于未来的工作,研究人员的目标是使用更先进的物理模拟器来改良结果,并通过更具可扩展性的数据搜索技术展开更复杂的长期任务。此外,他们计划将PRoC3S应用于移动机器人(如四足机器人),用于执行行走和扫描周围环境等任务。
人工智能研究院(The AI Institute)研究员Eric Rosen(未参与这项研究)表示:“使用ChatGPT等基础模型来控制机器人动作,可能会因幻觉而导致不安全或不正确的行为。PRoC3S利用基础模型进行高级任务指导,以解决这一问题;同时使用人工智能技术来明确地进行世界推理,从而确保实现可验证的安全且正确的操作。这种基于规划和数据驱动方法的结合可能十分关键,有助于开发能够理解并可靠地执行比目前更广泛的任务的机器人。”
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:goldenhorseconnect@gmail.com