一种基于微调大语言模型的场景图生成增强方法

申请号：CN202510521522

申请日期：2025-04-24

公开号：CN120450979A

公开日期：2025-08-08

类型：发明专利

摘要

本发明提出了一种基于微调大语言模型的场景图生成增强方法，针对现有的场景图生成算法对不常见目标效果较差的问题，基于数据集标注生成训练数据，对大模型进行指令引导的参数微调，以获得关系预测三元组。该三元组将与传统视觉模型输出的关系三元组集合进行交叉注意力交互，并进行图卷积全局融合得到最终结果。结果表明本发明充分发挥了大语言模型在先验知识和推理能力方面的优势，并与传统视觉模型互补，从而实现更优的表现。

技术关键词

大语言模型三元组联合损失函数场景视觉关系检测模型自然语言问答引入注意力机制节点特征多头注意力机制生成训练数据空间位置关系矩阵编码器指令格式化