摘要
本申请涉及人工智能技术领域,具体提供一种基于多模态数据的智能问答方法、电子设备及存储介质,旨在解决视觉语言大模型处理大规模或高维度图像数据存在图像信息过载、图像细节丢失和交互性不足的问题。为此目的,本申请的方法包括:获取多模态数据;将多模态数据输入智能问答模型;基于粗粒度特征提取模块获取图像数据的粗粒度特征;基于图像数据的粗粒度特征和文本指令获取图像数据中的关键区域的细粒度特征;基于粗粒度特征、文本指令和细粒度特征得到文本指令对应的问答结果。通过上述实施方式,能够根据用户需求动态调整特征提取的粒度,精确定位和分析图像中的关键区域,将粗粒度特征提取和细粒度特征提取结合,显著提升问答结果的精度。