摘要
本发明涉及计算机视觉领域,公开了一种基于多模态检索增强生成的新闻图片描述方法,该方法首先构建以实体为中心的多模态知识库,设计基于思维链的跨模态对齐策略,筛选相关句子生成假设图片描述和新闻摘要;提出背景信息与实体协同检索增强机制,优化背景知识图并实现精准实体匹配;最后将假设图片描述、新闻摘要、选定句子和匹配实体输入InstructBLIP文本编码器获取文本特征,图片经视觉编码器获取视觉特征,背景知识图经GAT获取知识特征,融合到解码器得到新闻图片描述。本发明通过多模态知识库构建、思维链跨模态对齐和背景信息与实体协同检索增强,有效提高新闻图片描述的准确性和语义对齐能力。