摘要
本公开涉及神经网络模型技术领域,具体涉及一种学生模型的训练方法、装置、电子设备及存储介质,所述方法包括:获取算法优化学生模型基于至少一个问题生成的算法优化模型输出,基于算法优化模型输出与预设答案获取基础奖励,基于算法优化模型输出的长度以及回答长度阈值获取回答长度奖励;获取算法优化模型输出中不同内容的下一个词被生成为不同词的第一词生成概率,基于第一词生成概率获取第一生成熵;基于回答长度奖励以及第一生成熵对算法优化学生模型进行训练,得到计算奖励优化学生模型;若计算奖励优化学生模型收敛,则输出。该方案可以确保计算奖励优化学生模型生成正确且简短的答案,提高了训练过程中模型的收敛速度,改善了用户体验。