摘要
本公开提供了一种图像生成模型的训练方法、相关装置和介质。方法包括:针对每个图文样本对,将样本图像与随机噪声图像叠加,得到叠加图像;对叠加图像进行扩散处理,得到样本图像对应的样本隐空间特征;基于样本描述信息,通过图像生成模型对样本隐空间特征进行噪声预测,得到噪声预测结果;基于随机噪声图像和噪声预测结果之间的差异,确定图文样本对的噪声损失图像,并基于样本图像对应的样本边缘图像对噪声损失图像进行掩码处理,得到掩码损失图像;基于多个图文样本对各自的噪声损失图像和掩码损失图像,训练图像生成模型。本公开能够提高图像生成的准确性。本公开可应用于大数据、云技术、音视频等各种场景。