一种基于扩散模型的文本条件引导的图像外扩方法与终端

申请号：CN202510741426

申请日期：2025-06-05

公开号：CN120259113B

公开日期：2025-08-22

类型：发明专利

摘要

本发明的一种基于扩散模型的文本条件引导的图像外扩方法与终端，接收用户传入的原始图像，针对原始图像，利用预训练的多模态大语言模型生成外扩文本条件；对原始图像进行特征编码，生成图像特征，对外扩文本条件进行特征编码，生成文本特征；将图像特征以及文本特征输入预训练的基于双UNet网络的潜在扩散模型，基于潜在扩散模型生成外扩图像；本发明引入多模态大语言模型生成文本条件，使外扩内容符合语义逻辑，提升合理性与美观度；双UNet结构将文本语义与原始图像特征分模块处理，避免单UNet交叉注意力负担过重，增强外扩内容与原图的语义连贯性；通过数据增强与双UNet架构，支持图像任意像素外扩，突破生成对抗网络的外扩范围限制。

技术关键词

文本大语言模型图像嵌入生成图像特征输出特征多模态执行图像编码多层感知机嵌入特征卷积神经网络提取模块注意力生成对抗网络数据解码器噪声语义