> 百科问答

新方法帮助机器学习模型识别任何姿势的物体 可用于自动驾驶

发布时间:2024-12-24 19:36:34

据外媒报道,美国研究团队开发出新视觉识别方法,可以提高机器学习技术识别物体(及物体如何在空间中定向)的能力。

(图片来源:密歇根大学)

自监督学习是一种机器学习方法,利用未标记数据来进行训练,将泛化性扩展到现实世界的数据。虽然它在识别物体(一项称为语义分类的任务)方面表现出色,但可能难以识别新姿势中的物体。在自动驾驶汽车导航等情况下,这一弱点很快就会成为问题。在这些情况下,算法必须评估驶近的汽车是否构成正面还是侧面碰撞的威胁,或者只是路过而已。

密歇根大学(University of Michigan)计算机科学与工程学教授Stella Yu表示:“这项工作旨在帮助机器更像人类一样感知世界,有利于实现更智能的机器人、更安全的自动驾驶汽车,以及技术与物理世界之间更直观的互动。”

为了帮助机器学习物体特性和姿势,该团队开发了新的自监督学习基准测试,其中包含问题设置、训练和评估协议,以及用于姿势感知表征学习的未标记图像三元组数据集。该图像三元组涉及捕捉同一物体的三个相邻镜头,其中摄像头姿势略有变化,称为平滑视角轨迹。然而,既不提供物体标签(例如“汽车”),也不提供姿势标签(例如正面视图)。这模仿了机器人视觉,当机器人在环境中移动时,它会移动摄像头。虽然机器人知道它在看同一个物体,但它不知道这个物体是什么或其姿势。

通过以前的方法来管理正则化,通常是将同一物体的不同视图映射到深度神经网络的最后一层的相同特征。新方法使用中间层特征并实施视点轨迹正则化,将一个物体的三个连续视图映射到特征空间中的直线上。第一种策略将姿势评估性能提高10-20%,而第二种策略在不减少语义分类的情况下,可将姿势评估性能进一步提高4%。

加州大学伯克利分校(University of California Berkeley)视觉科学和伯克利分校人工智能研究实验室(Berkeley AI research lab)的博士研究生Jiayun Wang表示:“更重要的是,我们将图像映射到一个特征上,其中不仅具有物体特征编码,而且包括物体姿势编码。这样的特征图可以更好地泛化至机器人从未见过的新物体的图像。”

这一概念可用于发现各类相关数据(如多通道音频或时间序列)中的有意义模式。例如,在特定时刻的每个音频快照都可以分配一个独特的特征,而整个序列被映射到平滑的特征轨迹,以捕捉事物如何随着时间的推移而不断变化。

(责编: admin)

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:goldenhorseconnect@gmail.com

?