一种融合非遗文化元素的模态语言模型图像编辑技术

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种融合非遗文化元素的模态语言模型图像编辑技术
申请号:CN202510180691
申请日期:2025-02-18
公开号:CN120125946A
公开日期:2025-06-10
类型:发明专利
摘要
本发明公开了一种融合非遗文化元素的模态语言模型图像编辑技术,包括:模型选择与训练,选择LLaMA模型作为基础,引入LoRA进行适应性微调,通过这种方式,模型在保持原有参数冻结的情况下进行适应性调整;本发明通过结合MLLM(如LLaVA)来增强指令编辑中的理解与推理能力,MLLM能够跨文本和图像模态进行协同学习,提取深层次的语义信息,使模型不仅能处理基本指令,还能理解复杂的非遗文化元素,为提升模型对非遗文化元素的理解,我们设计了一种增强的双向交互机制,该机制通过交叉注意力机制实现图像和文本特征之间的深度交互,使图像特征能够作为查询和键值对,与文本特征进行双向交流,为提升模型在复杂非遗场景中的表现。
技术关键词
图像编辑技术 图像特征向量 多模态融合机制 图像特征提取 元素 指令 文本编码器 图像编码器 数据 生成高质量图像 图像分割 交互机制 理解自然语言 模态特征 引入注意力机制