基于多模态识别的AI多模态对话系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态识别的AI多模态对话系统
申请号:CN202510812668
申请日期:2025-06-18
公开号:CN120336493B
公开日期:2025-09-02
类型:发明专利
摘要
本申请涉及智能对话领域,其具体地公开了一种基于多模态识别的AI多模态对话系统,其首先分别提取文本词粒度与图像局部特征,其次通过双向交叉注意力机制,在特征层级构建文本与图像的动态关联,随后,通过多头注意力捕获跨模态高层语义的动态关联,其层次化处理机制使得系统能够自适应不同任务阶段的多模态信息价值权重,既解决了传统方法简单拼接导致的模态鸿沟问题,又通过动态注意力机制捕捉跨模态时空关联,最终通过意图识别与大模型生成实现精准响应。这样,突破了现有技术在跨模态特征提取、动态交互建模方面的局限,显著提升了多模态意图理解的准确性和响应相关性。
技术关键词
编码向量 跨模态 深度编码器 对话系统 多模态 意图识别 文本 语义 自然语言 残差模块 图像块 交叉注意力机制 图像局部特征 编码模块 因子 处理单元