一种基于多模态检索增强生成的新闻图片描述方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态检索增强生成的新闻图片描述方法
申请号:CN202510694613
申请日期:2025-05-28
公开号:CN120336571A
公开日期:2025-07-18
类型:发明专利
摘要
本发明涉及计算机视觉领域,公开了一种基于多模态检索增强生成的新闻图片描述方法,该方法首先构建以实体为中心的多模态知识库,设计基于思维链的跨模态对齐策略,筛选相关句子生成假设图片描述和新闻摘要;提出背景信息与实体协同检索增强机制,优化背景知识图并实现精准实体匹配;最后将假设图片描述、新闻摘要、选定句子和匹配实体输入InstructBLIP文本编码器获取文本特征,图片经视觉编码器获取视觉特征,背景知识图经GAT获取知识特征,融合到解码器得到新闻图片描述。本发明通过多模态知识库构建、思维链跨模态对齐和背景信息与实体协同检索增强,有效提高新闻图片描述的准确性和语义对齐能力。
技术关键词
视觉特征 多模态 文本编码器 图片人脸 人脸检测模型 命名实体识别 解码器 人脸识别模型 注意力 对齐方法 大语言模型 人脸图片 生成指令 计算机视觉 代表 摘要
系统为您推荐了相关专利信息
序列 终点 声乐 样本 风格
生成方法 APP数据分析 文本生成模型 聚类分析算法 人机协同
重写方法 地址解析数据 地址映射 多任务 语义
检测机器人 风机叶片 超声波回波信号 多模态 数字孪生模型
车辆碰撞风险 汽车整车 交通流 多模态 能见度