设计应用

基于单阶段GANs的文本生成图像模型

作者: 胡 涛1,李金龙2
发布日期:2021-06-10
来源:信息技术与网络安全

0 引言

生成以给定文本描述为条件的高分辨率逼真的图像,已成为计算机视觉(CV)和自然语言处理(NLP)中具有挑战性的任务。该课题具有各种潜在的应用,例如艺术创作、照片编辑和视频游戏。

最近,由于生成对抗网络(GANs)[1]在生成图像中已经取得了很好的效果,REEDS在2016年首次提出通过条件生成对抗网络(cGANs)[2]从文字描述中生成合理的图像[3];ZHANG H在2017年通过堆叠多个生成器和判别器提出StackGAN++[4]模型,首次生成256×256分辨率图像。当前,几乎所有文本生成图像模型都是基于StackGAN,这些模型有多对生成器和判别器,通过将文本嵌入和随机噪声输入第一个生成器生成初始图像,在后续的生成器中对初始图像进行细化最终生成高分辨率图像。例如,AttnGAN[5]在每个生成器中引入了跨模态注意力机制,以帮助生成器更详细地合成图像;MirrorGAN[6]从生成的图像中重新生成文本描述,以实现文本-图像语义一致性;DM-GAN[7]引入了动态记忆网络[8]来解决堆叠结构训练不稳定的问题。




本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003600




作者信息:

胡  涛1,李金龙2

(1.中国科学技术大学 大数据学院,安徽 合肥230026;

2.中国科学技术大学 计算机科学与技术学院,安徽 合肥230026)


此内容为AET网站原创,未经授权禁止转载。
文本生成图像 生成对抗网络 注意力机制