摘要
本说明书提供一种大语言模型的优化方法、交互方法及系统。其中,优化方法包括:获得偏好数据集,其中,偏好数据集中包括多个偏好对,一个偏好对包括问题样本、以及与所述问题样本对应的偏好回答样本和非偏好回答样本,确定各偏好对各自对应的动态目标奖励差值,其中,至少两个偏好对对应的动态目标奖励差值不同,并根据各动态目标奖励差值对大语言模型进行优化,得到优化后的大语言模型,其中,优化后的大语言模型用于根据获得的目标用户的目标问题,确定满足目标用户的偏好的目标回答。使优化后的大语言模型不仅能很好的区分偏好回答与非偏好回答,还能根据不同的偏好强度进行精细化调整,从而在实际应用中更好地满足目标用户的个性化需求。