一种融合非遗文化元素的模态语言模型图像编辑技术

申请号：CN202510180691

申请日期：2025-02-18

公开号：CN120125946A

公开日期：2025-06-10

类型：发明专利

摘要

本发明公开了一种融合非遗文化元素的模态语言模型图像编辑技术，包括：模型选择与训练，选择LLaMA模型作为基础，引入LoRA进行适应性微调，通过这种方式，模型在保持原有参数冻结的情况下进行适应性调整；本发明通过结合MLLM(如LLaVA)来增强指令编辑中的理解与推理能力，MLLM能够跨文本和图像模态进行协同学习，提取深层次的语义信息，使模型不仅能处理基本指令，还能理解复杂的非遗文化元素，为提升模型对非遗文化元素的理解，我们设计了一种增强的双向交互机制，该机制通过交叉注意力机制实现图像和文本特征之间的深度交互，使图像特征能够作为查询和键值对，与文本特征进行双向交流，为提升模型在复杂非遗场景中的表现。

技术关键词

图像编辑技术图像特征向量多模态融合机制图像特征提取元素指令文本编码器图像编码器数据生成高质量图像图像分割交互机制理解自然语言模态特征引入注意力机制