摘要
本发明提供一种基于用户指令强调的听障人士交流方法及系统,方法包括:获取待处理的手语视频和用户指令信息;利用基于Transformer架构的视觉模型对待处理的手语视频进行特征提取,获得手语动作特征矩阵;基于所述手语动作特征矩阵分别获取指令强调的手语动作特征向量和时空强调的手语动作特征矩阵;将所述指令强调的手语动作特征向量和时空强调的手语动作特征矩阵进行特征融合,获得融合后的手语动作特征矩阵;基于所述融合后的手语动作特征矩阵通过预设的语音合成模型,获得待处理的手语视频对应的语音信息。本发明达到了显著提高手语识别的准确率的技术效果。