摘要
本发明公开一种基于模型复用的图文检索图网络方法,首先根据用户需求从互联网公开数据源构建多领域图像‑文本对数据集,利用预训练模型进行多级数据清洗确保数据质量,其次复用大规模预训练的多模态模型作为特征提取器,高效获取图像文本对的深度语义表征,显著降低了模型训练成本。然后设计异构拓扑结构,其中图像文本节点分别形成同质子图,跨模态边通过可学习的注意力权重动态生成。最后,利用构建图像文本语义关系图,并通过图采样与聚合完成对检索目标的上下文信息补充,进而生成检索特征,完成多模态组合的检索任务。本方法通过复用预训练模型特征使得过程更加高效,大幅提升了模型收敛速度。