首页 > 百科问答

麻省理工学院引入新方法 允许机器人在扫描的家庭环境模拟中接受训练

发布时间:2024-08-07 09:37:19

许多机器人专家的梦想是开发出合适的硬件和软件组合,让机器学习“通用”策略以指导其行为,这些策略在不同的地方和条件下都能发挥作用。但是,如果有一个家用机器人,人们可能不会考虑它是否能为邻居工作。据外媒报道,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员希望找到一种解决方案,以便轻松训练出适合特定环境的强大机器人策略。

(图片来源:麻省理工学院)

MIT CSAI下属团队Improbable AI lab研究助理Marcel Torne Villasevil表示:“我们的目标是让机器人在单一环境中,在干扰、分心、不同的照明条件和物体姿态变化的情况下,都能表现出色。我们提出了一种方法,利用计算机视觉领域的最新进展来实时创建数字孪生。只需使用手机,人们就可以获取现实世界的数字副本,而且得益于GPU并行化,机器人可以在模拟环境中进行训练,比在现实世界中要快得多。这种方法利用一些现实世界演示来启动训练过程,因此不需要大量的奖励工程。”

将机器人带回家

当然,RialTo并不仅仅是挥挥手机即可提供服务的家庭机器人。首先,它使用用户的设备,通过NeRFStudio、ARCode或Polycam等工具来扫描目标环境。一旦场景被重建,用户可以将其上传到RialTo的界面上进行详细调整,为机器人添加必要的关节等。

Torne表示:“经过提炼的场景被导出并引入模拟器,以根据现实世界的动作和观察所得来制定策略,比如抓住柜台上的杯子。这些现实世界演示在模拟中被复制,为强化学习提供了若干有价值数据。这有助于创建在模拟和现实世界中都行之有效的强大策略。使用强化学习的增强算法有助于指导这一过程,以确保该策略在应用于模拟器之外时有效。”

测试表明,无论是在受控实验室环境还是更难以预测的现实环境中,RialTo都能针对各种任务制定强大的策略,经过相同数量的演示,其表现比模仿学习提高了67%。这些任务包括打开烤面包机、将书放在书架上、将盘子放在架子上、将杯子放在架子上、打开抽屉和打开橱柜。对于每个任务,研究人员在三个难度不断增加的级别下测试系统表现:随机化物体姿态、添加视觉干扰,以及在执行任务过程中施加物理干扰。当与现实世界数据结合时,该系统的表现优于传统的模仿学习方法,特别是在有大量视觉干扰或物理中断的情况下。

MIT CSAIL首席研究员Pulkit Agrawal表示:“这些实验表明,如果我们关注的是在某一特定环境中的稳健性,最好的办法是利用数字孪生,而不是通过在不同环境中进行大规模数据收集来获得稳健性。”

至于局限性,目前RialTo需要三天时间才能完成全面训练。为了加快速度,该团队提到改进基础算法和使用基础模型。模拟训练也存在局限性,目前很难轻松实现模拟到现实(sim-to-real)的转移,并模拟可变形物体或液体。

那么RialTo的下一步旅程是什么?在之前努力的基础上,研究人员致力于保持其对各种干扰的稳健性,同时提高模型对新环境的适应性。Torne表示:“我们的下一个努力目标是使用预先训练的模型,加速学习过程,最大限度地减少人工输入,并实现更广泛的泛化能力。我们对‘实时’机器人编程概念非常感兴趣,其中机器人可以自主扫描周围环境,并学习如何在模拟中解决特定任务。虽然目前这种方法有局限性,例如需要人类进行一些初始演示,并且需要大量的计算时间来训练这些策略(最多三天),但我们认为这是实现‘实时’机器人学习和部署的重要一步。这种方法让我们进一步接近未来目标,机器人将不需要之前覆盖所有场景的策略。相反,它们可以快速学习新任务,而无需进行广泛的现实世界互动。与仅仅依赖于通用策略相比,这一进展有望加速机器人技术的实际应用。”

华盛顿大学计算机科学博士生Zoey Chen(未参与此项研究)表示:“为了在现实世界中部署机器人,研究人员传统上依赖于从专家数据中进行模仿学习(这可能很昂贵)或强化学习(这可能不安全)等方法。RialTo通过其新颖的真实到模拟到真实(real-to-sim-to-real)的管道,直接解决了现实世界RL(机器人学习)的安全约束,以及对数据驱动学习方法的有效数据约束。这不仅确保了在实际部署之前进行安全和稳健的模拟训练,而且明显提高了数据收集效率。RialTo有潜力明显扩大机器人学习规模,并使机器人能够更有效地适应复杂的现实世界场景。”

华盛顿大学计算机科学博士生Marius Memmel(未参与此项研究)补充道:“通过为策略学习提供低成本、可能无限的数据,模拟已在真实的机器人上展示了令人印象深刻的能力。然而,这些方法仅限于少数特定场景,实现相应的模拟构建既昂贵又费力。RialTo提供了一个易于使用的工具,可以在几分钟内而不是几小时内复现现实世界的环境。此外,它可以在策略学习期间广泛使用收集的演示,从而最大限度地减少了操作人员的负担,并缩小了sim2real差距。RialTo展现出对物体姿态和干扰的稳健性,无需大量的模拟器构建和数据收集,显示了令人难以置信的现实世界性能。”

(责编: admin)

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:goldenhorseconnect@gmail.com

?