一种面向视觉和语言模型的统一提示学习方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向视觉和语言模型的统一提示学习方法
申请号:CN202511010846
申请日期:2025-07-22
公开号:CN120911411A
公开日期:2025-11-07
类型:发明专利
摘要
本发明公开了一种面向视觉和语言模型的统一提示学习方法。本发明步骤:步骤1:定义统一的模态无关提示;步骤2:使用轻量级Transformer层转换统一提示;步骤3:将转换后的提示分别输入到文本编码器和视觉编码器;步骤4:在下游任务训练中仅优化统一提示和轻量级Transformer层;步骤5:通过联合优化实现更可靠的预测。本发明简化了视觉‑语言模型的适应性学习流程,提高了模型在少量样本学习和领域泛化任务上的性能。
技术关键词
学习方法 文本编码器 视觉 图像编码器 预训练模型 注意力 定义 网络 层级 参数 样本 模块