基于视觉大语言模型的跨模态检索增强方法、系统及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于视觉大语言模型的跨模态检索增强方法、系统及介质
申请号:CN202411837998
申请日期:2024-12-13
公开号:CN119782558A
公开日期:2025-04-08
类型:发明专利
摘要
本发明提供了基于视觉大语言模型的跨模态检索增强方法,包括:获取文本与图像的初步跨模态检索结果;利用视觉大语言模型对初步跨模态检索结果进行相关度评分;根据相关度评分对初步跨模态检索结果进行筛选;对筛选结果进行排序,将最相关的结果展示给用户。本发明不仅显著提升了跨模态检索的精确性和可靠性,还有效规避了高昂的数据标注和训练成本。同时,作为一种通用的检索增强方案,本发明可以无缝集成到各种现有跨模态检索系统中,极大提升其应用灵活性和经济性。
技术关键词
大语言模型 跨模态 视觉 模态检索方法 语义框架 计算机程序指令 文本编码器 图像编码器 检索系统 处理器 场景 可读存储介质 存储器