摘要
本发明涉及人工智能技术领域,尤其是指一种多模态奖励模型的训练方法、系统及基于多模态大模型的问答方法,包括:根据原始文本偏好数据生成文本评估思维链数据集,再利用多模态大模型将文本评估思维链数据集和多模态原始偏好数据集中不同模态的数据进行对齐,构建初始多模态数据集;以初始多模态数据集微调多模态大模型,以激发多模态大模型的跨模态泛化能力,再利用微调后的跨模态判断模型生成全模态偏好数据集。本发明利用全模态偏好数据集训练得到的奖励模型不仅能够对不同模态下的生成结果进行细致、合理的偏好判断,还能生成具备因果逻辑的评估过程。