一种数字人数据获取方案及多模态驱动模型训练方法

申请号：CN202411125941

申请日期：2024-08-16

公开号：CN118864678A

公开日期：2024-10-29

类型：发明专利

摘要

本发明涉及一种数字人数据获取方案及多模态驱动模型训练方法，包括以下步骤：采用视觉编码器从图像中提取唇部动作特征，并将其转换为视觉表示；采用音频编码器将原始音频信号转换为连续的特征序列；采用一同步模块将视觉表示和连续的特征序列进行融合，得到融合后的特征向量；录制多个显示数字人表情和动作的视频；设计文本编码器处理网络输入的文本，使用时间序列学习模型将语音处理成文本时间序列数据；采用融合后的特征向量、多个显示数字人表情和动作的视频进行训练，得到能用的多模态驱动模型，将处理后的文本及文本时间序列数据输入能用的多模态驱动模型，生成数字人画面。本发明能实现更加自然的数字人生成效果。

技术关键词

模型训练方法音频编码器生成数字人音唇同步视频序列文本编码器数据动作特征交叉注意力机制长短期记忆网络视觉面部基础结构多模态画面图像语音