视觉问答的回答生成方法、装置及电子设备

申请号：CN202510702544

申请日期：2025-05-28

公开号：CN120597897A

公开日期：2025-09-05

类型：发明专利

摘要

本发明提供一种视觉问答的回答生成方法、装置及电子设备，所述方法包括：获取待回答问题的问题图像，以及待回答问题的问题文本信息；将所述问题图像和所述问题文本信息输入至预先训练得到的多模态模型，得到所述多模态模型输出的能够回答所述待回答问题的回答图像和\或能够回答所述待回答问题的回答文本信息，其中，所述多模态模型基于所述问题图像和所述问题文本信息能够学习到所述问题图像的高维信息，以使所述多模态模型输出的回答图像与所述待回答问题的匹配度，和\或所述多模态模型输出的所述回答文本信息与所述待回答问题的匹配度超过匹配度阈值。实现了能够提高视觉问答的回答准确性。

技术关键词

回答生成方法大语言模型多模态文本图像训练样本视觉量化器多层感知器解码器非暂态计算机可读存储介质编码器电子设备处理器计算机程序产品码字生成装置存储器模块