摘要
本申请提供基于多模态训练的蒙古语唇语识别方法,包括S1:预处理阶段、S2:训练阶段以及S3:推理阶段;S1:预处理阶段,将语言模型训练文本中的单词切分成动词以外词干、格后缀和动词的形式;S2:训练阶段,首先利用ResNet对音频和视频进行特征提取,获取每个模态的特征表示;所述特征表示随后被输入到Conformer编码器中,经过深度融合提炼出多模态的共享表示;S3:推理阶段,首先通过ResNet对视频图像进行精细的特征提取,所提取的视频特征随后被输入到Conformer编码器中进行深度处理;最后,利用正向S4D解码器对文本内容进行精准预测。通过训练过程中融入了音频信息,系统得以从多模态角度捕捉更多的语音特征,弥补了仅靠视频信息可能出现的模糊和不确定性。