模型训练方法、装置、电子设备及计算机存储介质

申请号：CN202511343344

申请日期：2025-09-19

公开号：CN120832529A

公开日期：2025-10-24

类型：发明专利

摘要

本申请公开了一种模型训练方法、装置、电子设备及计算机存储介质，其中，该方法包括：获取第一训练样本；第一训练样本包括业务目标和业务状态特征；通过待训练的第一大语言模型处理第一训练样本，得到多个第一样本响应；获取各第一样本响应对应的各第一奖励值；各第一奖励值用于表征基于各第一样本响应实现业务目标的有效性；根据各第一奖励值更新第一大语言模型的参数，并再次执行获取第一训练样本的步骤，直至达到第一预设训练停止条件时停止，得到训练好的第一大语言模型。采用上述模型训练方法能够有效提升模型的训练效果，从而为用户提供可靠的决策分析服务。

技术关键词

大语言模型模型训练方法指标计算机存储介质样本决策分析方法像素点模型训练装置有效性规模终端电子设备模块动作特征参数处理器存储器指令基础