摘要
本发明涉及多模态意图识别方法及系统,文本、视频和音频模态的特征分别进行时域和频域增强,经拼接得到非语言模态融合特征,结合原始文本特征,分别建模音频‑文本与视频‑文本的时间同步关系,通过上下文对齐处理得到标准化的音频特征、视频特征和文本特征;融合标准化的三种模态的特征,得到融合后的特征向量,并映射回文本模态空间与原始文本特征加权残差连接得到融合语义向量;从融合语义向量中抽取全局语义锚点与掩码位置,与原始文本特征和融合语义向量拼接,得到输入特征;利用输入特征得到多意图类别的概率分布。能够支持三类异构模态输入,并通过细粒度语义监督与增强策略提升意图识别的准确性与鲁棒性。