多模态模型训练方法、装置、设备及存储介质

申请号：CN202411912993

申请日期：2024-12-20

公开号：CN119762925A

公开日期：2025-04-04

类型：发明专利

摘要

本公开提供了多模态模型训练方法、装置、设备及存储介质，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域。具体实现方案为：利用预设多模态模型的视觉编码网络，对第一文档图像和第二文档图像进行特征提取，以得到融合特征数据，其中，第一文档图像和第二文档图像是基于带有目标掩膜区域的目标文档图像所得，第一文档图像的分辨率与第二文档图像的分辨率不同；利用预设多模态模型的模型推理网络，对融合特征数据进行模型推理，以预测得到目标掩膜区域所掩盖的文本内容；基于预测得到的目标掩膜区域所掩盖的文本内容，对预设多模态模型进行训练，以得到目标多模态模型。

技术关键词

掩膜图像多模态融合特征特征提取单元推理网络感知特征数据分辨率模型训练方法文本对齐模块关系卷积模块模型训练装置处理器人工智能技术计算机程序产品