基于多模态知识驱动的绘图大模型调节方法及系统

申请号：CN202510824992

申请日期：2025-06-19

公开号：CN120747299A

公开日期：2025-10-03

类型：发明专利

摘要

本申请涉及大模型调节技术领域，其公开了一种基于多模态知识驱动的绘图大模型调节方法及系统，其首先获取由用户输入的文本提示，并对其进行深度解析，提取出用户意图的结构化表示。随后，以此结构化意图为基础，主动检索并整合外部的多模态知识，从而为生成过程引入更丰富、更精确的语义信息和事实依据。然后，使用知识‑注意力翻译模块能够将这些丰富的多模态知识转化为精细化的注意力调制参数。这些参数将直接、动态地影响绘图大模型内部注意力机制的工作方式，实现知识驱动的细粒度特征生成控制。这样，能够更准确地理解复杂的用户意图，从而生成与外部知识高度一致、细节更精准的图像，大幅提升生成图像的质量和可控性。

技术关键词

多模态意图文本编码器参数 Softmax函数语义细粒度特征重构网络矩阵注意力机制解码模块调节系统输出特征图像噪声