基于多模态识别的AI多模态对话系统

申请号：CN202510812668

申请日期：2025-06-18

公开号：CN120336493B

公开日期：2025-09-02

类型：发明专利

摘要

本申请涉及智能对话领域，其具体地公开了一种基于多模态识别的AI多模态对话系统，其首先分别提取文本词粒度与图像局部特征，其次通过双向交叉注意力机制，在特征层级构建文本与图像的动态关联，随后，通过多头注意力捕获跨模态高层语义的动态关联，其层次化处理机制使得系统能够自适应不同任务阶段的多模态信息价值权重，既解决了传统方法简单拼接导致的模态鸿沟问题，又通过动态注意力机制捕捉跨模态时空关联，最终通过意图识别与大模型生成实现精准响应。这样，突破了现有技术在跨模态特征提取、动态交互建模方面的局限，显著提升了多模态意图理解的准确性和响应相关性。

技术关键词

编码向量跨模态深度编码器对话系统多模态意图识别文本语义自然语言残差模块图像块交叉注意力机制图像局部特征编码模块因子处理单元