一种唇语识别方法、装置、设备、介质及产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种唇语识别方法、装置、设备、介质及产品
申请号:CN202510646116
申请日期:2025-05-20
公开号:CN120182771B
公开日期:2025-08-15
类型:发明专利
摘要
本申请公开了一种唇语识别方法、装置、设备、介质及产品,涉及机器视觉和自然语言处理交叉领域,该方法包括获取待识别的原始视频,初始化文本序列,对原始视频进行切割,得到多个帧图像,提取每个帧图像的帧内特征及帧间特征。根据全部帧图像的帧间特征,得到视频特征。根据视频特征以及文本序列,采用唇语识别模型,得到唇语识别结果。唇语识别模型为预先根据训练样本集搭建的神经网络多模态融合模型。本申请通过获取每个帧图像的帧内特征和帧间特征,得到视频特征,并进一步通过将文本序列以及视频特征进行多模态特征融合,提高了模型的特征表现能力和区分度,并进一步提高了唇语识别的准确性。
技术关键词
唇语识别方法 文本 图像 训练样本集 序列 标签 深度学习算法 编码向量 强化特征 多模态特征融合 视频特征提取 交叉注意力机制 字符
系统为您推荐了相关专利信息
识别方法 模版 事件特征 分层特征提取 模型超参数
文本分类模型训练 冗余 字段 编码特征 计算机执行指令
智能识别系统 图像块 图像处理模块 支持向量机分类器 图像获取模块
深度学习算法 医院 优化装置 传播算法 人数预测方法
客户端设备 自动化测试方法 决策 大语言模型 序列