一种基于隐音素检索的数字人口型多样性增强方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于隐音素检索的数字人口型多样性增强方法
申请号:CN202411376512
申请日期:2024-09-30
公开号:CN118921516B
公开日期:2025-01-24
类型:发明专利
摘要
本发明属于数字人口型动画合成技术领域,具体涉及一种基于隐音素检索的数字人口型多样性增强方法,用以增强数字人口型动画的真实性和多样性。具体而言,在传统的音素‑视素匹配方案中,由于音素和视素的类别数量受限于人为定义,导致从语音中提取的音素无法充分捕捉发音过程中的细微动态变化,进而影响了口型动画的自然流畅性。为了克服这一局限,本发明采用深度学习技术,对数字人的音视频素材进行预处理、特征提取,并构建了一个隐音素‑视素库。在实时交互中,通过音频隐音素的检索和匹配,实现了数字人口型动画的逼真和连贯性。本发明的优势在于其能够不断优化迭代,提高口型动画的连贯性和真实感。
技术关键词
深度音频特征 音频处理过程 动画 发音口型 编码器 图片 序列 数据 视频帧 系统响应时间 生成特征向量 动态 真实感 深度学习技术 生成代表 机制 聚类算法
系统为您推荐了相关专利信息
多视角向量 召回方法 语义向量 关键词 独立编码器
检测芯片 芯片筛选方法 不良品 预测误差 芯片筛选装置
补丁 分割方法 实例分割模型 模块 图像多尺度
节能型电动机 磁编码器 反馈控制模块 路段 控制系统
图像融合策略 仿真方法 生成对抗网络 非暂态计算机可读存储介质 图像增强