摘要
本申请涉及智能对话领域,其具体地公开了一种基于多模态识别的AI多模态对话系统,其首先分别提取文本词粒度与图像局部特征,其次通过双向交叉注意力机制,在特征层级构建文本与图像的动态关联,随后,通过多头注意力捕获跨模态高层语义的动态关联,其层次化处理机制使得系统能够自适应不同任务阶段的多模态信息价值权重,既解决了传统方法简单拼接导致的模态鸿沟问题,又通过动态注意力机制捕捉跨模态时空关联,最终通过意图识别与大模型生成实现精准响应。这样,突破了现有技术在跨模态特征提取、动态交互建模方面的局限,显著提升了多模态意图理解的准确性和响应相关性。