摘要
本发明公开一种基于分布正则化的跨模态文本生成图像方法。首先,文本编码器对COCO等数据集的文本进行编码,得到单词特征向量和全局句子特征向量。其次,特征向量经过三个阶段生成器,生成不同分辨率图像。再次,在判别器模块中引入变分自编码器,对生成图像进行分布正则化,判别器基于编码后的图像进行真伪判断。然后,将真实图像和生成的图像作为输入计算判别器的损失,经过多次迭代优化模型。最后,使用IS和FID指标对训练的最优图像模型进行评估,衡量生成图像的质量和模型性能。经实验验证,该方法可有效基于文本的语义生成对应图像,有效解决判别模型难以区分输入图像的真伪问题。本发明所得到的指标数据表现均优于原始模型AttnGAN。