一种基于隐音素检索的数字人口型多样性增强方法

申请号：CN202411376512

申请日期：2024-09-30

公开号：CN118921516B

公开日期：2025-01-24

类型：发明专利

摘要

本发明属于数字人口型动画合成技术领域，具体涉及一种基于隐音素检索的数字人口型多样性增强方法，用以增强数字人口型动画的真实性和多样性。具体而言，在传统的音素‑视素匹配方案中，由于音素和视素的类别数量受限于人为定义，导致从语音中提取的音素无法充分捕捉发音过程中的细微动态变化，进而影响了口型动画的自然流畅性。为了克服这一局限，本发明采用深度学习技术，对数字人的音视频素材进行预处理、特征提取，并构建了一个隐音素‑视素库。在实时交互中，通过音频隐音素的检索和匹配，实现了数字人口型动画的逼真和连贯性。本发明的优势在于其能够不断优化迭代，提高口型动画的连贯性和真实感。

技术关键词

深度音频特征音频处理过程动画发音口型编码器图片序列数据视频帧系统响应时间生成特征向量动态真实感深度学习技术生成代表机制聚类算法

系统为您推荐了相关专利信息

一种基于多视角向量融合的深度稠密文档召回方法

多视角向量召回方法语义向量关键词独立编码器

一种芯片筛选方法、装置、电子设备和存储介质

检测芯片芯片筛选方法不良品预测误差芯片筛选装置

基于深度学习的根毛分割方法、系统及设备

补丁分割方法实例分割模型模块图像多尺度

基于磁编码器反馈的节能型电动机控制系统及方法

节能型电动机磁编码器反馈控制模块路段控制系统

基于ASM与GANs的沙尘图像无配对学习仿真方法

图像融合策略仿真方法生成对抗网络非暂态计算机可读存储介质图像增强