大语言模型的训练方法、装置、电子设备以及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大语言模型的训练方法、装置、电子设备以及存储介质
申请号:CN202510978405
申请日期:2025-07-16
公开号:CN120851106A
公开日期:2025-10-28
类型:发明专利
摘要
本申请提供了一种大语言模型的训练方法、装置、电子设备以及存储介质,涉及人工智能技术领域。该方法包括:将样本提示输入大语言模型,得到大语言模型输出的响应文本;将响应文本输入训练完成的多头部奖励模型,得到训练完成的多头部奖励模型输出的多个预测奖励均值和多个预测奖励方差,多头部奖励模型包括多个奖励模型头部,每个奖励模型头部用于输出一个预测奖励均值和一个预测奖励方差;基于多个预测奖励方差,从多个预测奖励均值中选取目标奖励均值,目标奖励均值的置信度高于其他预测奖励均值;将目标奖励均值作为奖励信号以训练大语言模型。该方法能够提升大语言模型训练的可靠性和稳定性。
技术关键词
大语言模型 文本 样本 数据 电子设备 特征提取模块 人工智能技术 计算机 标签 基础 训练装置 处理器 指令 信号 可读存储介质 线性 曲线 程序 存储器
系统为您推荐了相关专利信息
序列 文本 融合特征 多模态 解码网络
大语言模型 专业知识库 生成方法 模版 数据处理工具
拉曼光谱采集技术 区域识别方法 卷积神经网络模型 组织 计算机可执行指令
时间序列模型 对象 模式 预测装置 数据
玉米抽雄机 特征向量值 故障检测方法 多传感器 地理信息数据