一种面向视觉和语言模型的统一提示学习方法

申请号：CN202511010846

申请日期：2025-07-22

公开号：CN120911411A

公开日期：2025-11-07

类型：发明专利

摘要

本发明公开了一种面向视觉和语言模型的统一提示学习方法。本发明步骤：步骤1：定义统一的模态无关提示；步骤2：使用轻量级Transformer层转换统一提示；步骤3：将转换后的提示分别输入到文本编码器和视觉编码器；步骤4：在下游任务训练中仅优化统一提示和轻量级Transformer层；步骤5：通过联合优化实现更可靠的预测。本发明简化了视觉‑语言模型的适应性学习流程，提高了模型在少量样本学习和领域泛化任务上的性能。

技术关键词

学习方法文本编码器视觉图像编码器预训练模型注意力定义网络层级参数样本模块