音频驱动视频生成方法、装置、计算机设备以及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
音频驱动视频生成方法、装置、计算机设备以及存储介质
申请号:CN202410880137
申请日期:2024-07-02
公开号:CN118413722B
公开日期:2024-10-18
类型:发明专利
摘要
本申请涉及一种音频驱动视频生成方法、装置、计算机设备以及存储介质。包括:获取驱动音频,对驱动音频进行特征预处理确定所述驱动音频的目标音频特征;根据目标音频特征确定音频特征序列,将音频特征序列输入面部动画识别模型,确定面部动画离散概率分布序列;根据面部动画离散概率分布序列确定面部动画参数序列;将面部动画参数序列和目标肖像图片输入目标变分自编码器中,生成视频帧序列,并根据视频帧序列和驱动音频生成动态语音视频。上述方案,能够丰富动态语音视频中的数字人在发声过程中面部表情,提高人像面部说话的自然度和多样性,使得数字人在发声时可以通过面部表情表达驱动音频中的感情信息,以便于用户更好的理解音频内容。
技术关键词
音频特征 面部动作单元 动画 样本 编码器 序列 视频帧 视频生成装置 视频生成方法 深度学习模型训练 语音识别模型 参数 离散特征 计算机设备 姿态估计 动态