> 百科问答

上智大学研发出单流模型 可提升图像转换效率

发布时间:2024-12-18 13:36:45

在当今可用于图像转换的众多人工智能和机器学习模型中,使用生成对抗网络(GAN)的图像到图像转换模型可以改变图像的风格。

这些模型通过使用两张输入图像来工作:一张内容图像,该图像被改变以匹配参考图像的风格。这些模型用于将图像转换为不同的艺术风格、模拟天气变化、提高卫星视频分辨率以及帮助自动驾驶汽车识别不同的照明条件(如白天和夜晚)等任务。

据外媒报道,上智大学(Sophia University)研究人员开发出新模型,可以减少运行这些模型所需的计算要求,从而可以在包括智能手机在内的各种设备上运行。

图片来源:上智大学

在2024年9月25日发表在期刊《IEEE Open Journal of the Computer Society》的一项研究论文中,上智大学信息与通信科学系的项目助理教授Rina Oh和教授Tad Gonsalves提出一种“单流图像到图像转换(SSIT)”模型,仅使用单个编码器进行这种转换。

通常,图像到图像的转换模型需要两个编码器(一个用于内容图像,一个用于风格图像)来“理解”图像。

这些编码器将内容和风格图像转换为数值(特征空间),这些数值代表图像的关键方面,例如颜色、对象和其他特征。然后,解码器采用组合的内容和风格特征,并使用所需的内容和风格重建最终图像。

相比之下,SSIT使用单个编码器来提取空间特征,例如内容图像的形状、对象边界和布局。

对于风格图像,该模型使用带池化的直接自适应实例规范化(DAdaINP),它可以捕获颜色和纹理等关键风格细节,同时专注于最突出的特征以提高效率。然后,解码器采用组合的内容和风格特征,并根据所需的内容和风格重建最终图像。

Oh教授表示:“我们实现了一个引导式图像到图像转换模型,该模型可以在参考输入风格图像的同时,以较低的GPU计算成本执行风格转换。与之前的相关模型不同,我们的方法利用池化和可变形卷积来高效提取风格特征,从而实现高质量的风格转换,同时降低计算成本并保留内容图像中的空间特征。”

该模型采用对抗训练进行训练,生成的图像由带有视觉变换器的鉴别器进行评估,该视觉变换器可捕捉图像中的模式。鉴别器通过将生成的图像与目标图像进行比较来评估生成的图像是真实的还是假的,而生成器则学习创建可以欺骗鉴别器的图像。

研究人员使用该模型执行了三种类型的图像转换任务。第一个涉及季节转换,其中风景照片从夏季转换为冬季,反之亦然。

第二项任务是将照片转换为艺术作品,即将风景照片转换为著名的艺术风格,例如毕加索、莫奈或动漫的风格。

第三项任务侧重于驾驶中的时间和天气转换,将从汽车前方拍摄的图像进行修改以模拟不同的条件,例如从白天变为夜晚或从晴天变为阴雨天气。

在所有这些任务中,该模型的表现都优于其他五个GAN模型(即NST、CNNMF、MUNIT、GDWCT和TSIT),Fréchet初始距离和核初始距离得分较低。这表明生成的图像与目标风格相似,并且在复制颜色和艺术细节方面做得更好。

“与其他模型相比,我们的生成器能够降低计算成本和FLOP,因为我们使用了一个由多个卷积层组成的编码器,该编码器仅用于内容图像,并放置了池化层以从不同角度提取风格特征,而不是卷积层,”Oh教授说。

从长远来看,SSIT模型有可能推动图像转换的应用,使其可以部署在智能手机或个人电脑等设备上,从而是数字艺术、设计和科学研究等各个领域的用户无需依赖昂贵的硬件或云服务即可创建高质量的图像转换。

(责编: admin)

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:goldenhorseconnect@gmail.com

?