摘要
本申请涉及一种文生视频方法、装置、计算机设备和存储介质。所述方法包括:通过将样本视频分割成多个语义连贯的视频片段后,对每个视频片段进行说话对象检测,筛选出包含有清晰可见说话对象的视频片段作为筛选片段,以确保参与模型训练的人脸样本清晰度较高、人脸姿态自然,避免了传统数据集中的人脸闪烁问题,并针对筛选片段中的说话对象进行人脸占比的调整得到裁剪片段,确保所有样本视频中人脸比例的一致性,避免传统数据集中人脸过大或过小,更符合实际应用场景,利用裁剪片段和说话对象的音频数据来参与文生视频模型的训练,以确保说话对象的口型可以与音频同步,令训练后的文生视频模型针对文生视频请求生成的视频内容中人脸表现良好。