一种基于1对K对比学习的多语言多模态预训练方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于1对K对比学习的多语言多模态预训练方法
申请号:CN202411838945
申请日期:2024-12-13
公开号:CN119761451A
公开日期:2025-04-04
类型:发明专利
摘要
本公开提供一种基于1对K对比学习的多语言多模态预训练方法。对于一个预训练任务,采用多语言多模态预训练中的通用框架,由多语言文本编码器f、视觉编码器g和具有图像到文本交叉注意的融合编码器φ组成,其图像和文本以1比K的小批比例进行预训练,K≥2,将不同语言的K个文本同时与图像与齐;并采用多语言图像‑文本匹配和跨模态掩蔽语言建模预训练任务叠加在新的1对K对比学习范式上,在通过难样例挖掘来平衡正样本和负样本的基础上,最终实现对于输入图像和文本为1对K的对比学习的多语言多模态模型的预训练过程。
技术关键词
预训练方法 多模态 图像 多语言 代表 文本编码器 通用框架 样本 图文 双向注意力 词语 标记 序列 基础 重构 视觉 策略