一种基于微调大语言模型的场景图生成增强方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于微调大语言模型的场景图生成增强方法
申请号:CN202510521522
申请日期:2025-04-24
公开号:CN120450979A
公开日期:2025-08-08
类型:发明专利
摘要
本发明提出了一种基于微调大语言模型的场景图生成增强方法,针对现有的场景图生成算法对不常见目标效果较差的问题,基于数据集标注生成训练数据,对大模型进行指令引导的参数微调,以获得关系预测三元组。该三元组将与传统视觉模型输出的关系三元组集合进行交叉注意力交互,并进行图卷积全局融合得到最终结果。结果表明本发明充分发挥了大语言模型在先验知识和推理能力方面的优势,并与传统视觉模型互补,从而实现更优的表现。
技术关键词
大语言模型 三元组 联合损失函数 场景 视觉关系检测模型 自然语言问答 引入注意力机制 节点特征 多头注意力机制 生成训练数据 空间位置关系 矩阵 编码器 指令 格式化