摘要
本发明公开了一种基于多样性的轻量化视觉搜索引擎,旨在以无损的方式有效压缩CLIP模型,从而实现轻量化的视觉搜索。本搜索引擎专注于CLIP模型视觉编码器中的参数密集的多层感知机模块,使用格拉姆‑施密特正交算法修剪多层感知机隐藏层中的冗余神经元,同时保留权重的多样性以提高剪枝后CLIP模型的可恢复性。然后,应用知识蒸馏来指导剪枝模型性能的恢复。在几个流行的CLIP模型上的实验结果表明,本搜索引擎在几乎不影响性能的情况下,显著减少了给定CLIP模型的参数和浮点运算量。这表明本搜索引擎可以在剪枝后,有效地保留原始CLIP模型卓越的图像和文本语义理解能力,从而在知识蒸馏后实现有效的性能恢复,进而实现了轻量化的视觉搜索。