一种基于三维时序表征学习的说话头像生成优化方法

申请号：CN202510359623

申请日期：2025-03-25

公开号：CN120298586B

公开日期：2025-10-14

类型：发明专利

摘要

本发明公开了一种基于三维时序表征学习的说话头像生成优化方法，包括：基于三维形变模型构建面部几何网格，提取说话头像视频的三维唇部运动信息；将三维唇部运动信息作为输入，通过重建网格三维序列构建蕴含三维时序信息的隐式空间，得到重建导向型三维时序表征学习算法；将三维唇部运动信息作为输入，利用序列数据增强策略与对比学习机制，得到对比增强型三维时序表征学习算法；采用说话头像生成模型生成说话头像视频，利用三维时序表征学习算法对其进行表征编码，基于三维唇部运动信息和三维时序表征构建监督信号增强模型生成的唇部动态真实性，通过三维几何空间建模与跨模态监督的方式，提升了说话头像视频的视觉真实性与音画同步精度。

技术关键词

时序学习算法头像导向型网格三维形变模型编码器序列视频参数运动样本解码器多尺度特征提取面部软组织动态语音同步矢量量化量化误差