摘要
本发明公开了一种跨模态人机交互意图识别与响应方法,包括:获取用户通过至少一种输入模态发出的交互指令数据;对所述交互指令数据进行特征提取和模态识别,生成对应的目标意图向量表示;基于所述目标意图向量表示,调用预训练的意图识别模型确定用户的候选意图以及初始响应动作;其中,所述意图识别模型中包括基于深度学习的分类模型;确定与所述候选意图匹配的验证反馈模态类型,引导用户生成低成本验证信号;对所述验证信号进行解析并与目标意图向量进行匹配比对,生成意图一致性判断结果。本发明有效克服了传统单模态识别系统对输入干扰敏感、准确率低的问题,提升系统对用户真实意图的理解深度,减少错误响应或误触发现象。