图像生成模型训练方法、基于音频的图像生成方法及设备
申请号:CN202411057462
申请日期:2024-08-02
公开号:CN118861353A
公开日期:2024-10-29
类型:发明专利
摘要
本申请实施例公开了图像生成模型训练方法、基于音频的图像生成方法及设备,用于生成对应人像特点与音频数据的人声特点匹配的图像。本申请实施例包括:获取包括第一音频数据、第二音频数据、图像数据、及与第一音频数据和图像数据对应的年龄和性别标签的训练数据;使用年龄和性别标签、第一音频数据和图像数据分别训练得到音频分类器、图像分类器;基于预训练的图像生成模型处理第二音频数据获得预测图像,第一音频数据与第二音频数据不完全相同;将第二音频数据输入音频分类器获得预测人声特点标签,将预测图像输入图像分类器获得预测人像特点标签;基于预测人声特点标签和预测人像特点标签调整预训练的图像生成模型,得到训练好的图像生成模型。
技术关键词
图像生成模型
音频分类器
图像分类器
标签
数据
图像生成方法
人声
年龄
计算机存储介质
中央处理器
存储器
输入输出接口
参数
生成指令
计算机设备