多模态模型的训练方法、视觉问答任务的处理方法及设备
申请号:CN202510235192
申请日期:2025-02-28
公开号:CN120164059A
公开日期:2025-06-17
类型:发明专利
摘要
本申请提供了一种多模态模型的训练方法、视觉问答任务的处理方法及设备,属于人工智能技术领域,训练方法包括:获取图像训练数据和文本训练数据;基于图像训练数据和文本训练数据对混合专家连接器进行跨模态全局对齐训练,得到第一混合专家连接器,基于图像训练数据和文本训练数据对第一混合专家连接器进行跨模态局部对齐训练,得到包括第二混合专家连接器的多模态模型;多模态模型用于基于第二混合专家连接器进行图像模态信息与文本模态信息的全局对齐和局部对齐,得到视觉问答任务的答案。本申请能够结合对图像和问题进行粗细粒度的跨模态对齐,从而提升视觉问答任务的答案的准确性。
技术关键词
细粒度特征
文本
跨模态
数据
视觉
多模态
图像全局特征
答案
自然语言
样本
序列
可读存储介质
人工智能技术
处理器
存储器
计算机