面向视觉图像的人机多轮交互方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
面向视觉图像的人机多轮交互方法和装置
申请号:CN202510855555
申请日期:2025-06-25
公开号:CN120353959B
公开日期:2025-10-10
类型:发明专利
摘要
本申请涉及一种面向视觉图像的人机多轮交互方法,包括:从全局图像信息中提取与当前多轮对话文本特征相关的局部图像特征;根据当前历史局部图像特征对所述局部图像特征进行更新,获取更新后的局部图像特征;采用交叉注意力机制,根据更新后的局部图像特征以及与全局图像信息对应的全局图像特征,确定视觉图像特征;将视觉图像特征输入多模态大模型进行处理。本申请构建了一套基于最优匹配机制的文本与视觉图像双模态上下文特征更新体系,能够在文本和图像两个模态上都具备“可更新、可压缩、可融合”的能力,显著提升模型在多轮对话中对语义线索的追踪能力与视觉焦点的动态理解能力,推动多轮图文对话系统在广域视觉理解中的性能突破。
技术关键词
局部图像特征 矩阵 多轮交互方法 多轮对话 交叉注意力机制 视觉 子模块 文本 多模态 人机 上下文特征 可读存储介质 对话系统 交互装置 双模态 存储器 处理器 输入模块