摘要
本申请公开了一种唇语识别方法、装置、设备、介质及产品,涉及机器视觉和自然语言处理交叉领域,该方法包括获取待识别的原始视频,初始化文本序列,对原始视频进行切割,得到多个帧图像,提取每个帧图像的帧内特征及帧间特征。根据全部帧图像的帧间特征,得到视频特征。根据视频特征以及文本序列,采用唇语识别模型,得到唇语识别结果。唇语识别模型为预先根据训练样本集搭建的神经网络多模态融合模型。本申请通过获取每个帧图像的帧内特征和帧间特征,得到视频特征,并进一步通过将文本序列以及视频特征进行多模态特征融合,提高了模型的特征表现能力和区分度,并进一步提高了唇语识别的准确性。