摘要
本发明公开了一种基于三维时序表征学习的说话头像生成优化方法,包括:基于三维形变模型构建面部几何网格,提取说话头像视频的三维唇部运动信息;将三维唇部运动信息作为输入,通过重建网格三维序列构建蕴含三维时序信息的隐式空间,得到重建导向型三维时序表征学习算法;将三维唇部运动信息作为输入,利用序列数据增强策略与对比学习机制,得到对比增强型三维时序表征学习算法;采用说话头像生成模型生成说话头像视频,利用三维时序表征学习算法对其进行表征编码,基于三维唇部运动信息和三维时序表征构建监督信号增强模型生成的唇部动态真实性,通过三维几何空间建模与跨模态监督的方式,提升了说话头像视频的视觉真实性与音画同步精度。