一种多模态奖励模型的训练方法、系统及问答方法

申请号：CN202510780747

申请日期：2025-06-12

公开号：CN120744111A

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及人工智能技术领域，尤其是指一种多模态奖励模型的训练方法、系统及基于多模态大模型的问答方法，包括：根据原始文本偏好数据生成文本评估思维链数据集，再利用多模态大模型将文本评估思维链数据集和多模态原始偏好数据集中不同模态的数据进行对齐，构建初始多模态数据集；以初始多模态数据集微调多模态大模型，以激发多模态大模型的跨模态泛化能力，再利用微调后的跨模态判断模型生成全模态偏好数据集。本发明利用全模态偏好数据集训练得到的奖励模型不仅能够对不同模态下的生成结果进行细致、合理的偏好判断，还能生成具备因果逻辑的评估过程。

技术关键词

多模态文本数据样本模板跨模态问答方法大语言模型标签模型训练模块人工智能技术训练系统音频逻辑视频算法网络图像参数