摘要
本发明公开了一种生成图像多维人类偏好评估方法与系统,涉及生成图像评估技术领域,所述方法包括:步骤1、构建包含生成图像的预训练数据集和包含生成图像‑文本提示对的训练集;步骤2、通过预训练神经网络提取生成图像的层级特征:使用Visual Transformer B‑16骨干网络输出12层特征序列,再通过12个多层感知机将特征映射为;步骤3、将预训练模型嵌入多维人类偏好评估神经网络并冻结参数;步骤4、用训练集中的生成图像‑文本提示对多维人类偏好评估神经网络进行多轮网络训练,得到评估神经网络训练模型,再使用评估神经网络训练模型对生成图像‑文本提示对进行预测,得到生成图像‑文本提示对的质量分数、真实性分数和一致性分数。