基于多模态数据的智能问答方法、电子设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态数据的智能问答方法、电子设备及存储介质
申请号:CN202510116952
申请日期:2025-01-23
公开号:CN120069067A
公开日期:2025-05-30
类型:发明专利
摘要
本申请涉及人工智能技术领域,具体提供一种基于多模态数据的智能问答方法、电子设备及存储介质,旨在解决视觉语言大模型处理大规模或高维度图像数据存在图像信息过载、图像细节丢失和交互性不足的问题。为此目的,本申请的方法包括:获取多模态数据;将多模态数据输入智能问答模型;基于粗粒度特征提取模块获取图像数据的粗粒度特征;基于图像数据的粗粒度特征和文本指令获取图像数据中的关键区域的细粒度特征;基于粗粒度特征、文本指令和细粒度特征得到文本指令对应的问答结果。通过上述实施方式,能够根据用户需求动态调整特征提取的粒度,精确定位和分析图像中的关键区域,将粗粒度特征提取和细粒度特征提取结合,显著提升问答结果的精度。
技术关键词
智能问答方法 多模态 细粒度特征 文本 图像 特征提取模块 数据 指令 序列 问答模型 子模块 视觉 电子设备 答案 人工智能技术 标识符 解码器 注意力机制