一种唇语识别方法、装置、设备、介质及产品

申请号：CN202510646116

申请日期：2025-05-20

公开号：CN120182771B

公开日期：2025-08-15

类型：发明专利

摘要

本申请公开了一种唇语识别方法、装置、设备、介质及产品，涉及机器视觉和自然语言处理交叉领域，该方法包括获取待识别的原始视频，初始化文本序列，对原始视频进行切割，得到多个帧图像，提取每个帧图像的帧内特征及帧间特征。根据全部帧图像的帧间特征，得到视频特征。根据视频特征以及文本序列，采用唇语识别模型，得到唇语识别结果。唇语识别模型为预先根据训练样本集搭建的神经网络多模态融合模型。本申请通过获取每个帧图像的帧内特征和帧间特征，得到视频特征，并进一步通过将文本序列以及视频特征进行多模态特征融合，提高了模型的特征表现能力和区分度，并进一步提高了唇语识别的准确性。

技术关键词

唇语识别方法文本图像训练样本集序列标签深度学习算法编码向量强化特征多模态特征融合视频特征提取交叉注意力机制字符

系统为您推荐了相关专利信息

一种基于语义感知增强的事件因果关系识别方法

识别方法模版事件特征分层特征提取模型超参数

一种文本分类模型训练方法、装置、设备及介质

文本分类模型训练冗余字段编码特征计算机执行指令

一种污渍区域识别的智能识别系统

智能识别系统图像块图像处理模块支持向量机分类器图像获取模块

一种基于深度学习的医院就诊优化方法、设备、装置及存储介质

深度学习算法医院优化装置传播算法人数预测方法