基于LLM推理和集成的图像检索方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于LLM推理和集成的图像检索方法及装置
申请号:CN202410777370
申请日期:2024-06-17
公开号:CN118820502A
公开日期:2024-10-22
类型:发明专利
摘要
本发明提供一种基于LLM推理和集成的图像检索方法及装置,该方法包括:对参考图像对应的密集字幕进行LLM推理,得到编辑字幕;从图像数据集中提取出视觉特征,从密集字幕中提取出参考字幕特征,从编辑字幕中提取出编辑字幕特征;计算参考字幕特征、编辑字幕特征和视觉特征之间的多个特征相似度;根据多个特征相似度之间的相似度减少量计算出集成字幕特征,并根据视觉特征和集成字幕特征之间的相似度从图像数据集搜索出目标检索图像。本发明所述方法实现了在编辑字幕中整合互补信息并过滤掉噪声,结合语义相关性得分来计算集成字幕特征权重设计图像检索特征,提升了特征的表征能力,进而提高了图像检索的准确率。
技术关键词
字幕 图像检索方法 视觉特征 检索图像 编辑 非暂态计算机可读存储介质 自然语言 Softmax函数 图像检索装置 过滤掉噪声 语义 处理器 数据 计算机程序产品 存储器 电子设备 模块 核心 模板