奖励模型的训练方法、大语言模型的优化方法及相关设备

申请号：CN202511446159

申请日期：2025-10-11

公开号：CN121031714A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种奖励模型的训练方法、大语言模型的优化方法及相关，奖励模型的训练方法包括：获取偏好训练样本对以及待训练的奖励模型，偏好训练样本对包括首选响应样本与非首选响应样本；基于待训练的奖励模型计算首选响应样本与非首选响应样本的奖励分数差；基于奖励分数差以及首选响应样本、非首选响应样本二者之间的语义关联度构建成本矩阵；基于成本矩阵，计算损失边际；基于损失边际计算得到带边际的成对偏好损失值，并以最小化基于带边际的损失值为优化目标对待训练的奖励模型的参数进行更新，得到训练好的奖励模型。提升了模型对困难样本的学习能力和整体泛化性能，避免过度依赖简单样本，进而改进大语言模型在复杂任务中的生成质量。

技术关键词

样本语义关联度计算机可读指令大语言模型矩阵处理器训练装置计算机设备模块可读存储介质存储器参数关系信号策略