引言
图像风格迁移(IST)是图像生成领域的一个热门研究主题[1],可应用于城市规划、景观设计、文化艺术等领域。其目的是将X领域中的风景图像转移到Y领域。因此,各种IST研究相继应用于景观设计[2]。语义分割与 CycleGAN 的结合最近已成为景观图像局部风格迁移的主流,旨在转移景观图像中特定对象的风格。Kurzman 等人[3]设计了一种两阶段局部迁移模型,实现了城市街道中真实图像与地面物体的流行艺术之间的局部风格迁移。Duan 等人[4]使用手工制作的语义分割和 CycleGAN,将城市景观图像中交通标志的纹理风格进行迁移。Kim 等人[5]利用 CycleGAN 和语义掩膜,将真实景观图像中的对象转换为动漫风格。但是,CycleGAN用于复杂景观的多状态图像生成仍存在两方面的不足。首先,它的图像上下文感知能力还有待进一步提升。尽管文献[6]和文献[7]探索了Vision Transformer通过self -attention捕获景观图像上下文信息的有效性,但该方法参数量较大,容易过拟合,且难以训练[8]。其次,其无法针对图像中不同对象分别进行风格转换,例如,不同的树种在不同季节的风格转换中有不同的表现。这使得CycleGAN无法很好地应用于复杂景观图像的风格迁移和多状态的图像生成。
针对以上两个方面的问题,本文提出一种基于语义类别风格迁移的复杂景观的多状态图像生成方法SCST(Semantic Category Style Transfer),根据复杂景观图像中不同语义类别的特征,实现对各个语义类别区域的局域风格迁移。在SCST中,首先通过语义分割确定复杂景观图像中各个区域的语义类别。然后按照各个语义类别所代表对象在目标状态下的变化特征,采用改进的具有上下感知的风格迁移模型GCycleGAN对各个语义类别区域分别进行风格迁移。GCycleGAN通过在CycleGAN的生成器与判别器的主干特征提取网络引入更轻量的Gated-MLP[9],降低参数量和模型复杂度的同时加快训练收敛速度,通过全局信息与局部信息的融合,提高处理信息的效率和准确性,从而训练出更加准确的生成模型。最后结合语义分割结果,将风格迁移后的各个区域融合到一起,得到最终的全局风格迁移的目标状态景观图像。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006560
作者信息:
桑晨浩,莫路锋,屠国青
(浙江农林大学 数学与计算机科学学院,浙江 杭州 311300)