一种多模态奖励模型的训练方法、系统及问答方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种多模态奖励模型的训练方法、系统及问答方法
申请号:CN202510780747
申请日期:2025-06-12
公开号:CN120744111A
公开日期:2025-10-03
类型:发明专利
摘要
本发明涉及人工智能技术领域,尤其是指一种多模态奖励模型的训练方法、系统及基于多模态大模型的问答方法,包括:根据原始文本偏好数据生成文本评估思维链数据集,再利用多模态大模型将文本评估思维链数据集和多模态原始偏好数据集中不同模态的数据进行对齐,构建初始多模态数据集;以初始多模态数据集微调多模态大模型,以激发多模态大模型的跨模态泛化能力,再利用微调后的跨模态判断模型生成全模态偏好数据集。本发明利用全模态偏好数据集训练得到的奖励模型不仅能够对不同模态下的生成结果进行细致、合理的偏好判断,还能生成具备因果逻辑的评估过程。
技术关键词
多模态 文本 数据 样本 模板 跨模态 问答方法 大语言模型 标签 模型训练模块 人工智能技术 训练系统 音频 逻辑 视频 算法 网络 图像 参数