一种基于多模态检索增强生成的新闻图片描述方法

申请号：CN202510694613

申请日期：2025-05-28

公开号：CN120336571A

公开日期：2025-07-18

类型：发明专利

摘要

本发明涉及计算机视觉领域，公开了一种基于多模态检索增强生成的新闻图片描述方法，该方法首先构建以实体为中心的多模态知识库，设计基于思维链的跨模态对齐策略，筛选相关句子生成假设图片描述和新闻摘要；提出背景信息与实体协同检索增强机制，优化背景知识图并实现精准实体匹配；最后将假设图片描述、新闻摘要、选定句子和匹配实体输入InstructBLIP文本编码器获取文本特征，图片经视觉编码器获取视觉特征，背景知识图经GAT获取知识特征，融合到解码器得到新闻图片描述。本发明通过多模态知识库构建、思维链跨模态对齐和背景信息与实体协同检索增强，有效提高新闻图片描述的准确性和语义对齐能力。

技术关键词

视觉特征多模态文本编码器图片人脸人脸检测模型命名实体识别解码器人脸识别模型注意力对齐方法大语言模型人脸图片生成指令计算机视觉代表摘要

系统为您推荐了相关专利信息

VEM-Token声乐情绪多模态魔改模型的建构方法

序列终点声乐样本风格

一种基于AI进行广告创意生成方法

生成方法 APP数据分析文本生成模型聚类分析算法人机协同

一种基于大规模语言模型的地址重写方法

重写方法地址解析数据地址映射多任务语义

一种基于多模态传感风机叶片内部自主检测机器人

检测机器人风机叶片超声波回波信号多模态数字孪生模型

基于电动自行车多模态行为预测其与车辆碰撞风险的方法

车辆碰撞风险汽车整车交通流多模态能见度