一种基于对称扩散模型和视觉再生成的图像描述方法

申请号：CN202510190500

申请日期：2025-02-20

公开号：CN120148033A

公开日期：2025-06-13

类型：发明专利

摘要

本发明公开了一种基于对称扩散模型和视觉再生成的图像描述方法，包含两个分别用于图像到文本和文本到图像生成的扩散模型，利用预先训练的图像编码器和文本编码器分别获得图像表示和文本表示，然后将图像表示和噪声文本表示输入到去噪器以生成文本描述；最后设计了一种名为视觉再生成损失的损失函数，它可以通过最大化再生成图像和原始输入图像之间的视觉语义一致性来保证输入图像和生成的文本描述之间的语义对齐。与大多数现有的图像描述方法不同，本发明可以通过输入图像和再生图像之间的视觉相似性进一步评估并优化生成的句子。

技术关键词

视觉文本编码器图像编码器噪声更新模型参数传播算法标签语义解码器模块定义通道