摘要
本申请公开了一种预训练图像特征提取模型的训练方法及相关装置。首先可以先获取包含多张样本图像的预训练数据集,这些样本图像分为两类:第一目标图像和第二目标图像。第一目标图像配备了基于SAM模型识别的区域识别框及对应的数值或符号形式的类别标签;第二目标图像则带有利用OCR模型标注的区域识别框及与视觉内容一致的文字描述。随后,采用ViT结构作为初始模型,并引入掩码机制,将模型提取的全局特征通过注意力加权公式转换为多个对应区域的局部特征。最后,通过结合所有局部特征与其对应的多维局部标签设计损失函数,对初始模型进行端到端参数优化,训练出能够同时捕捉细粒度视觉信息和文本信息的预训练图像特征提取模型。