摘要
本发明公开了一种基于视觉语言模型噪声标签优化的图像分类方法,包括:获取待处理图像并输入图像分类模型,获得分类结果;其中,图像分类模型基于高质量样本集训练得到。在筛选高质量样本的过程中,第一阶段利用CLIP模型,结合宏观、微观文本提示来计算每个样本图像的损失值,通过两分量的高斯混合模型拟合各样本图像的损失值,从而根据两个分布确定混淆样本的上、下界,划分得到干净样本、混淆样本和噪声样本;第二阶段,采用不同策略确定三种样本的伪标签,将每个样本图像与其伪标签输入BLIP模型,计算二者的相似度分数,以筛选出高质量样本。本发明可以在保证标签质量的同时减轻图像分类模型的自我确认偏差,使图像分类模型具有良好的鲁棒性。