学生模型的训练方法、装置、电子设备及存储介质

申请号：CN202511525236

申请日期：2025-10-24

公开号：CN121031715A

公开日期：2025-11-28

类型：发明专利

摘要

本公开涉及神经网络模型技术领域，具体涉及一种学生模型的训练方法、装置、电子设备及存储介质，所述方法包括：获取算法优化学生模型基于至少一个问题生成的算法优化模型输出，基于算法优化模型输出与预设答案获取基础奖励，基于算法优化模型输出的长度以及回答长度阈值获取回答长度奖励；获取算法优化模型输出中不同内容的下一个词被生成为不同词的第一词生成概率，基于第一词生成概率获取第一生成熵；基于回答长度奖励以及第一生成熵对算法优化学生模型进行训练，得到计算奖励优化学生模型；若计算奖励优化学生模型收敛，则输出。该方案可以确保计算奖励优化学生模型生成正确且简短的答案，提高了训练过程中模型的收敛速度，改善了用户体验。

技术关键词

学生答案基础生成算法神经网络模型技术计算机策略教师模型训练模块电子设备训练装置格式标签处理器指令输出模块蒸馏可读存储介质