一种面向多模态眼底图像的视觉-语言持续对比预训练方法

申请号：CN202510447982

申请日期：2025-04-10

公开号：CN120356035A

公开日期：2025-07-22

类型：发明专利

摘要

本发明公开了一种用于眼底图像分析的持续视觉‑语言对比预训练方法，采用代表性图文对的重放策略，使模型能够在持续学习过程中复习先前阶段的知识，并结合非对角信息蒸馏技术，有效保持图像和文本表示的一致性，从而缓解灾难性遗忘问题。相较于传统的单模态或静态预训练方法，本发明能够增量地融合不同模态的表示特征，形成一个统一的多模态基础模型。在动态数据环境下，本方法无需在训练一开始就获取全部模态的数据，能够有效地通过持续预训练的方式适应持续到达的不同模态的图像文本对。实验结果表明，本发明在多种模态的眼底图像下游测试中的表现优于现有方法，能够在持续学习过程中有效降低遗忘率，并提升模型的可塑性和泛化性。

技术关键词

预训练方法多模态阶段蒸馏荧光素眼底血管造影视觉文本编码器光学相干断层扫描样本矩阵代表性图像框架机制数据分布动态更新图像分析策略