多模态模型的训练方法、视觉问答任务的处理方法及设备

申请号：CN202510235192

申请日期：2025-02-28

公开号：CN120164059A

公开日期：2025-06-17

类型：发明专利

摘要

本申请提供了一种多模态模型的训练方法、视觉问答任务的处理方法及设备，属于人工智能技术领域，训练方法包括：获取图像训练数据和文本训练数据；基于图像训练数据和文本训练数据对混合专家连接器进行跨模态全局对齐训练，得到第一混合专家连接器，基于图像训练数据和文本训练数据对第一混合专家连接器进行跨模态局部对齐训练，得到包括第二混合专家连接器的多模态模型；多模态模型用于基于第二混合专家连接器进行图像模态信息与文本模态信息的全局对齐和局部对齐，得到视觉问答任务的答案。本申请能够结合对图像和问题进行粗细粒度的跨模态对齐，从而提升视觉问答任务的答案的准确性。

技术关键词

细粒度特征文本跨模态数据视觉多模态图像全局特征答案自然语言样本序列可读存储介质人工智能技术处理器存储器计算机