基于多模态大模型的新闻图像定制化描述生成方法及装置

申请号：CN202510246467

申请日期：2025-03-04

公开号：CN120107976A

公开日期：2025-06-06

类型：发明专利

摘要

本发明公开了一种基于多模态大模型的新闻图像定制化描述生成方法及装置，方法包括：视觉内容提取与场景图生成模块，将图像内容结构化为三元组表示的视觉场景图，并通过视觉场景图的定位将场景图中元素映射到图像的区域，获得对应的视觉元素区域；实体关联分析与新闻语境整合模块，引导多模态大模型在新闻语境下分析视觉场景图中每个视觉场景元素对应的命名实体；输出替换新闻命名实体的视觉场景图集合与实体的知识标记集合；基于案例学习的定制化新闻描述生成模块，利用相似度查询检索与当前输入的新闻主题和用户自定义规则相似的案例，结合检索到的相似案例与用户自定义规则需求为多模态大模型构建案例学习上下文。装置包括：处理器和存储器。

技术关键词

多模态生成方法自定义规则三元组图像场景实体元素倒排索引结构视觉特征提取关键词文章索引表文本编码器标签标记存储器主题模块