基于潜空间特征融合的语音驱动数字人口型生成方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
基于潜空间特征融合的语音驱动数字人口型生成方法
申请号:
CN202511365915
申请日期:
2025-09-24
公开号:
CN120876687B
公开日期:
2025-12-16
类型:
发明专利
摘要
本发明公开了一种基于潜空间特征融合的语音驱动数字人口型生成方法,属于人工智能与图像合成技术领域;主要提高语音驱动数字人口型生成图像的质量和时序连贯性;本发明的方案为利用语音音频和视频图像分别进行模态编码后,在图像编码器构建的潜空间中通过语音特征引导图像重建过程,生成与语音特征一致的口型变化图像帧序列;实现了从用户语音输入到数字人响应的完整流程,增强了数字人在人机交互过程中的智能化表达能力,从而实现更自然、更智能的数字人语音表达。
技术关键词
语音特征
跨模态融合特征
生成方法
图像解码器
编码模块
音频
图像融合方法
视频
卷积模块
交叉注意力机制
人脸检测算法
矩阵
图像编码器
生成工具