摘要
本发明涉及一种基于轻量化CLIP模型的图文处理方法及系统,方法包括:获取待处理的图文数据,将图文数据利用轻量化CLIP模型进行特征提取,基于提取的特征进行图像文本检索或图像文本分类;其中,轻量化CLIP模型为将原始CLIP模型中的Pre‑LN块替换为包含注意力机制的SAS‑P块后得到的改进CLIP模型;改进模型的训练包括:改进CLIP模型作为学生模型,将原始CLIP模型作为教师模型,进行模型训练,模型训练采用对比损失、配对损失和多阶段知识蒸馏损失更新改进CLIP模型参数,系统用于实现上述方法。与现有技术相比,本发明提供了一种用于图文处理的轻量化CLIP模型,降低了CLIP模型规模,减少了模型计算和训练成本,从而实现了高效的图文处理。