多模态意图识别方法及系统

申请号：CN202510726589

申请日期：2025-06-03

公开号：CN120654178A

公开日期：2025-09-16

类型：发明专利

摘要

本发明涉及多模态意图识别方法及系统，文本、视频和音频模态的特征分别进行时域和频域增强，经拼接得到非语言模态融合特征，结合原始文本特征，分别建模音频‑文本与视频‑文本的时间同步关系，通过上下文对齐处理得到标准化的音频特征、视频特征和文本特征；融合标准化的三种模态的特征，得到融合后的特征向量，并映射回文本模态空间与原始文本特征加权残差连接得到融合语义向量；从融合语义向量中抽取全局语义锚点与掩码位置，与原始文本特征和融合语义向量拼接，得到输入特征；利用输入特征得到多意图类别的概率分布。能够支持三类异构模态输入，并通过细粒度语义监督与增强策略提升意图识别的准确性与鲁棒性。

技术关键词

音频特征意图识别方法融合语义文本特征加权融合特征视频多模态意图类别时间同步样本矩阵多头注意力机制交互注意力 LSTM模型锚点加权残差感知特征

系统为您推荐了相关专利信息

基于小样本学习的多域声学特征融合的伪造音频鉴别方法和计算装置

梅尔频率倒谱系数鉴别方法融合特征音频声学特征

一种基于多模态信息融合的视觉定位方法及系统

多模态信息融合视觉定位方法融合特征特征提取网络加权特征

基于交叉注意力融合的视觉语音识别方法及系统

视觉语音识别方法视觉特征交叉注意力机制面部视频

一种脉冲调制等离子体射流的产生方法及其应用

脉冲调制多学科参数高压脉冲电源生成等离子体

地图构建方法、地图构建系统、装置、车辆以及存储介质