从机器人技术、医学再到政治学,各个领域都在尝试训练人工智能(AI)系统做出各种有意义的决策。例如,在拥堵的城市中使用AI系统智能控制交通,可以帮助驾车者更快到达目的地,同时提高安全性或可持续性。
(图片来源:麻省理工学院)
然而,教AI系统做出正确的决策并非易事。这些AI决策系统的基础是强化学习模型,当被训练执行的任务出现哪怕很小的变化时,它们仍然经常失败。以交通为例,一个模型可能难以控制一组交叉路口(具有不同的速度限制、车道数量或交通模式)。
据外媒报道,为了提高强化学习模型的可靠性,以应对具有可变性的复杂任务,麻省理工学院(MIT)的研究人员引入一种更有效的算法来训练它们。
该算法策略性选择最佳任务来训练AI代理,以使其能够有效执行相关任务集合中的所有任务。在进行交通信号控制的情况下,每个任务可以是任务空间(包括城市中的所有交叉路口)中的一个交叉口。
通过关注最有益于算法整体有效性的少数交叉路口,该方法可以充分提高性能,同时保持低训练成本。研究人员发现,在一系列仿真任务中,这种技术比标准方法的效率高5-50倍。这有助于该算法以更快的方式学习更好的解决方案,最终提高AI代理的性能。研究人员Cathy Wu表示:“通过跳出框框思考,使用非常简单的算法,我们看到惊人的性能提升。社区更可能采用不太复杂的算法,因为它更容易实施,也更容易被其他人理解。”
寻找中间选择
为了训练一种算法来控制城市中多个交叉路口的交通信号灯,研究人员通常会在两种主要方法之间做出选择,包括为每个路口单独训练一种算法(只使用该路口的数据);或者使用所有路口的数据来训练更大的算法,然后将其应用于每个路口。但每种方法都存在缺点。针对每项任务(例如给定交叉路口)训练单独的算法是一个耗时的过程,需要大量的数据和计算,而为所有任务训练一种算法通常会导致性能不佳。
在这项研究中,Wu等人在这两种方法之间寻找最佳平衡点。对于他们的方法,他们选择任务子集,并为每个任务单独训练算法。重要的是,研究人员策略性地选择最有可能提高算法在所有任务上整体性能的单个任务。
研究人员利用强化学习领域的常见技巧——即零样本迁移学习,即将已经训练好的模型应用于新任务,而无需进一步训练。通过迁移学习,模型通常在新的相邻任务上表现出色。Wu表示:“我们知道在所有任务上进行训练是最好的。但我们想知道,我们是否可以在这些任务子集上进行训练,将这些结果应用到所有任务上,并仍可以看到性能提升。”
为了确定应该选择哪些任务来最大化预期性能,研究人员开发出名为模型基转移学习(MBTL)的算法。MBTL算法分为两部分。首先,它模拟每个算法在一项任务上独立训练时的表现。然后,它对每个算法的性能在转移至另一任务时会降低的程度进行建模,这个概念被称为泛化性能。
受益于显式建模泛化性能,MBTL能够评估在新任务上进行训练的价值。MBTL按顺序执行这一操作,首先选择能够带来最高性能增益的任务,然后选择能够为总体性能提供最大后续边际改进的额外任务。MBTL仅关注最富有前景的任务,因此能够明显提高训练过程的效率。
降低训练成本
当研究人员在仿真任务中测试这种技术时,包括控制交通信号、管理实时速度通知,以及执行若干常规控制任务,它的效率是其他方法的5-50倍。
这意味着研究人员可以通过训练更少的数据获得相同的解决方案。例如,MBTL算法的效率提高了50倍,仅在两个任务上进行训练,就可以实现与使用100个任务数据的标准方法相同的性能。Wu表示:“从两种主要方法的角度来看,这意味着其他98个任务的数据是不必要的,或者在全部100个任务上进行训练会混淆算法,所以最终性能比我们的更差。”
使用MBTL,即使少量增加额外训练时间,也可以带来更好的表现。未来,研究人员计划设计可以扩展至更复杂问题(如高维任务空间)的MBTL算法。他们还感兴趣的是,将这种方法应用于现实世界问题,特别是在下一代移动出行系统中。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:goldenhorseconnect@gmail.com