一种快速语音驱动的面部视频编辑与生成方法、系统

申请号：CN202510260392

申请日期：2025-03-06

公开号：CN119785270B

公开日期：2025-05-16

类型：发明专利

摘要

本发明公开了一种快速语音驱动的面部视频编辑与生成方法、系统，属于面部生成技术领域。获取面部视频数据、面部表情文本描述和视频语音并提取特征，对视频特征进行随机时间段掩码遮挡后生成加噪视频特征，训练一个教师整流模型，其能够生成用于对加噪视频特征逐渐去噪的逆采样方向向量；再利用教师整流模型回流训练一个学生整流模型，利用训练后的学生整流模型对给定的面部图像进行视频生成，或者对给定的面部视频进行编辑。学生整流模型是在时间步为0时的加噪视频特征与教师整流模型产生的生成特征组成的配对基础上进行回流训练后得到的，提高了学生模型常微分方程轨迹的直线程度，能够用低生成步数快速实现高质量的面部视频生成与编辑。

技术关键词

视频编辑语音特征生成方法学生教师微分方程求解器文本时间段面部生成技术模型训练模块噪声样本数据获取模块通道生成特征