设计应用

基于单阶段GANs的文本生成图像模型

作者：胡涛1，李金龙2

发布日期：2021-06-10

来源：信息技术与网络安全

0 引言

生成以给定文本描述为条件的高分辨率逼真的图像，已成为计算机视觉(CV)和自然语言处理(NLP)中具有挑战性的任务。该课题具有各种潜在的应用，例如艺术创作、照片编辑和视频游戏。

最近，由于生成对抗网络(GANs)[1]在生成图像中已经取得了很好的效果，REEDS在2016年首次提出通过条件生成对抗网络(cGANs)[2]从文字描述中生成合理的图像[3]；ZHANG H在2017年通过堆叠多个生成器和判别器提出StackGAN++[4]模型，首次生成256×256分辨率图像。当前，几乎所有文本生成图像模型都是基于StackGAN，这些模型有多对生成器和判别器，通过将文本嵌入和随机噪声输入第一个生成器生成初始图像，在后续的生成器中对初始图像进行细化最终生成高分辨率图像。例如，AttnGAN[5]在每个生成器中引入了跨模态注意力机制，以帮助生成器更详细地合成图像；MirrorGAN[6]从生成的图像中重新生成文本描述，以实现文本-图像语义一致性；DM-GAN[7]引入了动态记忆网络[8]来解决堆叠结构训练不稳定的问题。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000003600

作者信息：

胡涛1，李金龙2

(1.中国科学技术大学大数据学院，安徽合肥230026；

2.中国科学技术大学计算机科学与技术学院，安徽合肥230026)

原创声明：此内容为AET网站原创，未经授权禁止转载。

文本生成图像生成对抗网络注意力机制

欢迎查看AET双碳专题

2024基础电子测试测量培训

新型储能技术专题

欢迎查看AET-ChatGPT专题

《电子技术应用》特约专栏征稿