多模态模型训练方法、装置、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
多模态模型训练方法、装置、设备及存储介质
申请号:CN202411912993
申请日期:2024-12-20
公开号:CN119762925A
公开日期:2025-04-04
类型:发明专利
摘要
本公开提供了多模态模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域。具体实现方案为:利用预设多模态模型的视觉编码网络,对第一文档图像和第二文档图像进行特征提取,以得到融合特征数据,其中,第一文档图像和第二文档图像是基于带有目标掩膜区域的目标文档图像所得,第一文档图像的分辨率与第二文档图像的分辨率不同;利用预设多模态模型的模型推理网络,对融合特征数据进行模型推理,以预测得到目标掩膜区域所掩盖的文本内容;基于预测得到的目标掩膜区域所掩盖的文本内容,对预设多模态模型进行训练,以得到目标多模态模型。
技术关键词
掩膜 图像 多模态 融合特征 特征提取单元 推理网络 感知特征 数据 分辨率 模型训练方法 文本 对齐模块 关系 卷积模块 模型训练装置 处理器 人工智能技术 计算机程序产品