图像生成模型训练方法、基于音频的图像生成方法及设备

申请号：CN202411057462

申请日期：2024-08-02

公开号：CN118861353A

公开日期：2024-10-29

类型：发明专利

摘要

本申请实施例公开了图像生成模型训练方法、基于音频的图像生成方法及设备，用于生成对应人像特点与音频数据的人声特点匹配的图像。本申请实施例包括：获取包括第一音频数据、第二音频数据、图像数据、及与第一音频数据和图像数据对应的年龄和性别标签的训练数据；使用年龄和性别标签、第一音频数据和图像数据分别训练得到音频分类器、图像分类器；基于预训练的图像生成模型处理第二音频数据获得预测图像，第一音频数据与第二音频数据不完全相同；将第二音频数据输入音频分类器获得预测人声特点标签，将预测图像输入图像分类器获得预测人像特点标签；基于预测人声特点标签和预测人像特点标签调整预训练的图像生成模型，得到训练好的图像生成模型。

技术关键词

图像生成模型音频分类器图像分类器标签数据图像生成方法人声年龄计算机存储介质中央处理器存储器输入输出接口参数生成指令计算机设备