一种基于可信视位素获取的中文唇语识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于可信视位素获取的中文唇语识别方法
申请号:CN202510302505
申请日期:2025-03-14
公开号:CN120260118A
公开日期:2025-07-04
类型:发明专利
摘要
本发明公开了一种基于可信视位素获取的中文唇语识别方法,所述方法包括以下步骤:S1.数据采集与预处理:以获得刻画唇部运动视频数据;S2.深度聚类:对刻画唇部运动视频数据进行深度聚类,获得聚类分布的视位素类别数量,相应的视位素类别及视位素库,从而获得与所述刻画唇部运动视频数据相应的带视位素类别标注的逐帧图像数据;S3.基于视位素中间表示的级联汉字字符序列识别:基于带视位素类别标注的逐帧图像数据进行特征提取,实现以视位素为中间表示的级联汉字字符序列识别。本方法能够降低识别预测的累积误差,提升基于视位素的唇语识别性能,打破基于视位素的唇语识别的准确率瓶颈。
技术关键词
中文唇语识别方法 运动视频数据 编解码单元 序列识别 编码器 多头注意力机制 字符 汉字 时空卷积神经网络 特征提取器 深度聚类方法 神经网络模型 卷积神经网络提取 素子 网络模块 图像 高斯混合模型 前馈神经网络
系统为您推荐了相关专利信息
资源优化方法 深度强化学习模型 上下文特征 神经网络模型 资源依赖关系
车辆故障预警方法 声音信号解码 注意力解码 故障分析模型 注意力编码器
交易风险预警 监督学习模型 无监督学习 样条曲面拟合方法 计算机执行指令
多层感知器 重构方法 海洋防灾减灾 编码器 随机噪声
电磁阀喷头 单线激光雷达 主控模块 机器人本体 果树冠层