基于多模态训练的蒙古语唇语识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态训练的蒙古语唇语识别方法
申请号:CN202510299062
申请日期:2025-03-13
公开号:CN120148088A
公开日期:2025-06-13
类型:发明专利
摘要
本申请提供基于多模态训练的蒙古语唇语识别方法,包括S1:预处理阶段、S2:训练阶段以及S3:推理阶段;S1:预处理阶段,将语言模型训练文本中的单词切分成动词以外词干、格后缀和动词的形式;S2:训练阶段,首先利用ResNet对音频和视频进行特征提取,获取每个模态的特征表示;所述特征表示随后被输入到Conformer编码器中,经过深度融合提炼出多模态的共享表示;S3:推理阶段,首先通过ResNet对视频图像进行精细的特征提取,所提取的视频特征随后被输入到Conformer编码器中进行深度处理;最后,利用正向S4D解码器对文本内容进行精准预测。通过训练过程中融入了音频信息,系统得以从多模态角度捕捉更多的语音特征,弥补了仅靠视频信息可能出现的模糊和不确定性。
技术关键词
唇语识别方法 蒙古语 多模态 阶段 编码器 视频 注意力 文本 音频特征 人脸检测算法 模块 序列 解码器执行 发音词典 矩阵 语音特征 残差网络 定位算法