视觉问答的回答生成方法、装置及电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
视觉问答的回答生成方法、装置及电子设备
申请号:CN202510702544
申请日期:2025-05-28
公开号:CN120597897A
公开日期:2025-09-05
类型:发明专利
摘要
本发明提供一种视觉问答的回答生成方法、装置及电子设备,所述方法包括:获取待回答问题的问题图像,以及待回答问题的问题文本信息;将所述问题图像和所述问题文本信息输入至预先训练得到的多模态模型,得到所述多模态模型输出的能够回答所述待回答问题的回答图像和\或能够回答所述待回答问题的回答文本信息,其中,所述多模态模型基于所述问题图像和所述问题文本信息能够学习到所述问题图像的高维信息,以使所述多模态模型输出的回答图像与所述待回答问题的匹配度,和\或所述多模态模型输出的所述回答文本信息与所述待回答问题的匹配度超过匹配度阈值。实现了能够提高视觉问答的回答准确性。
技术关键词
回答生成方法 大语言模型 多模态 文本 图像训练样本 视觉 量化器 多层感知器 解码器 非暂态计算机可读存储介质 编码器 电子设备 处理器 计算机程序产品 码字 生成装置 存储器 模块