不平衡数据下对比学习的理论分析：从训练动态到剪枝解决方案

7393点击 2026-03-11 15:03

本文第一作者廖海旭为新泽西理工学院数据科学系在读博士生，师从Prof. Shuai Zhang。

论文标题：Theoretical Analysis of Contrastive Learning under Imbalanced Data: From Training Dynamics to a Pruning Solution
论文链接：https://openreview.net/forum?id=DUXG9E8dEO

一、研究背景

对比学习已成为表征学习中的一种强大范式，能够在不依赖标签的情况下有效利用无标注数据。

在这一框架下，语义相似的样本被视为正样本对，而语义不同的样本被视为负样本对。通过在表征空间中拉近正样本对、拉远负样本对之间的距离，对比学习使得模型能够捕捉到丰富且具有判别性的特征。

该方法在广泛的应用领域中取得了显著成功，尤其在多模态学习中影响深远，推动了早期视觉语言模型发展的重大进展。

尽管对比学习具有诸多优势，但它在现实数据集中常见的类别不平衡的问题下，仍然面临挑战。在这类数据中，多数类主导了样本对的构造，而少数类则代表性不足。这种不平衡会阻碍模型对少数类判别性特征的捕捉，降低表征质量，并导致模型产生偏差行为。

近期的研究开始逐步从理论角度理解对比学习，主要关注其相较于传统生成式方法的优势、数据增强在有效表征学习中的必要性，以及其在降低下游任务样本复杂度方面的能力。然而，这些研究尚未考虑数据分布不平衡所带来的影响，缺乏对这些影响的理论刻画。

总体而言，本文在理论和实践层面都提供了新的洞见，主要理论结论也通过数值实验得到了验证。主要贡献如下：

第一，我们构建了一个理论框架，用以刻画在数据分布不平衡条件下、基于 Transformer 编码器的对比学习训练动态。我们表明学习过程可以分为三个阶段。

不平衡数据下对比学习的理论分析：从训练动态到剪枝解决方案

图 1：神经元在训练过程中投影的动态变化。蓝色曲线表示神经元在其主导特征方向上的投影增长情况，橙色曲线表示其在非主导特征方向上的投影，绿色曲线表示其在噪声空间方向上的投影。在第一阶段，神经元主要沿特征方向增长，同时抑制噪声分量。在第二阶段，其在主导特征方向上的投影增长速度快于所有其他特征方向，从而形成明显的分离。在第三阶段，神经元逐渐收敛，其最终表示由所学习的主导特征所主导

第二，我们定量刻画了少数特征的存在如何影响神经元的学习能力，进而影响整体表征学习。我们的分析表明不平衡会从多个方面削弱表征性能。

第三，基于幅值的剪枝能够增强对少数特征的学习，恢复因数据不平衡而退化的性能。我们的结果显示，剪枝可以加强沿少数特征方向的梯度更新，鼓励更多神经元专门学习少数特征，从而获得更加稳健且更均衡的表示。