摘要
本发明公开了基于多模态融合与一致性约束的数字人唇形驱动方法,属于数字人生成领域,包括以下步骤:S1、以参考人脸图像为输入构建多模态特征提取与表示框架,并基于构建的多模态特征提取与表示框架生成个性化人脸特征表示;S2、利用QKV一致性约束驱动个性化人脸特征表示和语音特征进行动态耦合,生成语音驱动下的唇形动作;S3、利用离散编码对参考视频编码得到离散特征,并基于Lipschitz连续性约束机制限制编码空间的变化范围,优化唇形动作。采用上述基于多模态融合与一致性约束的数字人唇形驱动方法,在语音驱动一致性、局部细节还原以及整体生成质量上实现全面提升,显著改善了生成唇形动作的微观动态表现和细节保真度。