基于多模态训练的蒙古语唇语识别方法

申请号：CN202510299062

申请日期：2025-03-13

公开号：CN120148088A

公开日期：2025-06-13

类型：发明专利

摘要

本申请提供基于多模态训练的蒙古语唇语识别方法，包括S1：预处理阶段、S2：训练阶段以及S3:推理阶段；S1：预处理阶段，将语言模型训练文本中的单词切分成动词以外词干、格后缀和动词的形式；S2：训练阶段，首先利用ResNet对音频和视频进行特征提取，获取每个模态的特征表示；所述特征表示随后被输入到Conformer编码器中，经过深度融合提炼出多模态的共享表示；S3:推理阶段，首先通过ResNet对视频图像进行精细的特征提取，所提取的视频特征随后被输入到Conformer编码器中进行深度处理；最后，利用正向S4D解码器对文本内容进行精准预测。通过训练过程中融入了音频信息，系统得以从多模态角度捕捉更多的语音特征，弥补了仅靠视频信息可能出现的模糊和不确定性。

技术关键词

唇语识别方法蒙古语多模态阶段编码器视频注意力文本音频特征人脸检测算法模块序列解码器执行发音词典矩阵语音特征残差网络定位算法