一种基于三维时序表征学习的说话头像生成优化方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于三维时序表征学习的说话头像生成优化方法
申请号:CN202510359623
申请日期:2025-03-25
公开号:CN120298586B
公开日期:2025-10-14
类型:发明专利
摘要
本发明公开了一种基于三维时序表征学习的说话头像生成优化方法,包括:基于三维形变模型构建面部几何网格,提取说话头像视频的三维唇部运动信息;将三维唇部运动信息作为输入,通过重建网格三维序列构建蕴含三维时序信息的隐式空间,得到重建导向型三维时序表征学习算法;将三维唇部运动信息作为输入,利用序列数据增强策略与对比学习机制,得到对比增强型三维时序表征学习算法;采用说话头像生成模型生成说话头像视频,利用三维时序表征学习算法对其进行表征编码,基于三维唇部运动信息和三维时序表征构建监督信号增强模型生成的唇部动态真实性,通过三维几何空间建模与跨模态监督的方式,提升了说话头像视频的视觉真实性与音画同步精度。
技术关键词
时序 学习算法 头像 导向型 网格 三维形变模型 编码器 序列 视频 参数 运动 样本 解码器 多尺度特征提取 面部软组织 动态 语音同步 矢量量化 量化误差