视频生成方法、模型训练方法、装置及计算机程序产品

申请号：CN202510538730

申请日期：2025-04-27

公开号：CN120658921A

公开日期：2025-09-16

类型：发明专利

摘要

本申请公开了一种视频生成方法、模型训练方法、装置及计算机程序产品，视频生成方法包括：获取用于生成视频的目标音频以及参考图片，参考图片中包括发声对象；根据目标音频对应的一个或多个音频片段的片段特征以及参考图像，确定音频片段对应的各待生成视频帧的全局视觉特征；根据目标音频各音频帧的发音特征以及参考图片中发声对象的唇部特征，确定音频帧对应的待生成视频帧中发声对象的唇部特征；根据待生成视频帧对应的唇部特征和全局视觉特征，生成各视频帧。通过本申请提供的方案既能够使得所生成的视频中人物的表达更加生动自然，也能够很准确地使得唇部动作和音频同步，提高用户的视觉体验。

技术关键词

全局视觉特征唇部特征音频视频生成方法发声发音特征视频帧视频生成模型对象图片样本计算机程序产品模型训练方法图像脸部特征视频生成装置关键点基础

系统为您推荐了相关专利信息

面向复杂场景的列车运行监控系统LKJ检测平台及方法

信号生成装置列车运行监控系统音频采集装置视频采集装置网络交换机

一种自注意力机制计算方法、推理方法

矩阵注意力机制输出特征音频对象

视频生成方法和装置、电子设备及存储介质

视频生成模型序列双向注意力视频生成方法视频帧特征

声信号采集装置自清洁方法、装置、设备及存储介质

信号采集装置麦克风频域特征清洁方法时域特征

一种蓝牙发射器

蓝牙发射器蓝牙芯片数据接口语音识别模块电路板