一种基于图文语义关系对齐的图文数据多模态训练方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于图文语义关系对齐的图文数据多模态训练方法
申请号:CN202510013325
申请日期:2025-01-06
公开号:CN119416064A
公开日期:2025-02-11
类型:发明专利
摘要
本发明公开了一种基于图文语义关系对齐的图文数据多模态训练方法。将不包括标签的训练集输入到预训练模型中进行特征抽取获得多模态特征,利用多模态特征作为输入进一步处理获得分类的预测值,并结合聚类算法获得聚类标签,利用分类的预测值和聚类标签处理并结合多模态特征获得图文语义关系对齐的损失,以图文语义关系对齐的损失最小化为目标针对分类器进行训练;重复上述步骤直到分类器收敛。本发明的创新在于是建立了深度聚类和对比学习的模型和分类器,并利用图文语义关系对齐处理训练,进而增强了图文关系分类和图文语义关系的理解能力,提升了处理速度和准确性。
技术关键词
图文 多模态特征 语义 文本 图片 样本 标签 分类器 编码器 关系 预训练模型 聚类算法 矩阵 训练语言模型 深度学习技术 数据 字符