> 百科问答

MIT开发出新框架 允许人类通过交互纠正机器人的行为

发布时间:2025-03-11 08:36:34

想象一下,一个机器人正在帮人类洗碗,人类让它从水槽里拿出一个沾满肥皂的碗,但它的抓手却偏离了目标。据外媒报道,来自麻省理工学院(MIT)和英伟达(NVIDIA)的研究人员开发出新框架,可以通过简单的交互来纠正机器人的行为。通过这种方法,人类可以在屏幕上指向碗或追踪它的轨迹,或者简单地向正确的方向轻推机器人的手臂。相关研究已经发表在预印本服务器arXiv上。

图片来源:MIT

与其他纠正机器人行为的方法不同,该技术不需要用户收集新数据并重新训练驱动机器人头脑的机器学习模型。它使机器人能够使用直观的实时人类反馈来选择一个可行的动作序列,从而尽可能地满足用户的意图。

研究人员对该框架进行了测试,结果表明成功率比不利用人类干预的替代方法高出21%。从长远来看,该框架可以让用户更轻松地引导经过工厂训练的机器人执行各种家务劳动,即使机器人从未见过用户的家或家中的物品。

电气工程和计算机科学(EECS)研究生、arXiv论文的主要作者Felix Yanwei Wang表示:“我们不能指望普通人来收集数据和微调神经网络模型。消费者希望的是机器人开箱即用,或是有一种直观的机制来定制机器人。这就是我们在这项研究中解决的挑战。”

减少错位

最近,研究人员开始使用预训练的生成式人工智能(AI)模型来学习一组规则或“策略”,让机器人遵循这些规则来完成一个动作。生成式模型可以解决多个复杂任务。在训练期间,模型只能看到可行的机器人动作,因此它可以学习生成有效的轨迹供机器人遵循。

虽然这些轨迹是有效的,但这并不意味着它们总是与现实世界中用户的意图一致。机器人可能被训练从架子上拿盒子而不会打翻它们,但如果架子的方向与机器人在训练时看到的不同,它就可能无法拿到用户书架顶部的盒子。

为了克服这些障碍,工程师通常要收集展示新任务的数据并重新训练生成式模型,这是一个昂贵且耗时的过程,而且需要机器学习领域的专业知识。相反,MIT的研究人员希望在机器人犯错时,允许用户在部署过程中指导它的行为。

但是,如果人类与机器人交互来纠正其行为,可能会无意中导致生成式模型选择无效的动作。它可能会拿到用户想要的盒子,但在此过程中会撞倒书架上的书。Wang表示:“我们希望允许用户与机器人交互,而不引入这些错误,这样我们在部署过程中能获得更符合用户意图的行为,同时这种行为也是有效且可行的。”

为了实现这一目标,该框架为用户提供了三种纠正机器人行为的直观方法,每种方法都具有一定的优势。首先,用户可以在显示机器人摄像头视图的界面中指向他们想要机器人操纵的物体。其次,用户可以在该界面中描绘一条轨迹,指定他们希望机器人如何到达该物体。最后,用户可以按照自己希望的方向实际移动机器人的手臂。

Wang表示:“当你将环境的2D图像映射到3D空间中的动作时会丢失一些信息。物理推动机器人是明确用户意图而不丢失任何信息的最直接方法。”

成功采样

为确保这些交互不会导致机器人选择无效动作,例如与其他物体碰撞,研究人员使用了一种特定的采样程序。该技术可以让模型从一组有效动作中选择一个最符合用户目标的动作。

Wang解释道:“我们不是一味地强加用户的意愿,而是让机器人了解用户的意图,但让采样程序围绕其自身的学习行为集进行振荡。”虽然该方法不一定能立即完成任务,但它为用户提供了一个优势,即如果他们看到机器人做错了什么,可以立即纠正它,而不是等待它完成后再给它新的指示。

此外,在用户几次推动机器人直到它拿起正确的碗后,它可以记录这些纠正动作,并通过未来的训练将其纳入自己的行为中。然后,第二天,机器人就可以在不需要推动的情况下拿起正确的碗。Wang表示:“但持续改进的关键在于让用户与机器人交互,这正是我们在这里展示的方法。”

未来,研究人员希望在保持或提高性能的同时,提升采样程序的速度。他们还希望在新环境中实验机器人策略生成的方法。

(责编: admin)

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:goldenhorseconnect@gmail.com

?