摘要
本发明公开了一种减少大模型训练突刺问题的改进方法及系统,本发明方法包括在利用训练数据集训练大模型并采用Adam类优化器结合预设的损失函数优化更新大模型的模型参数时,为Adam类优化器用于防止分母为0的常数项引入使得改进后的Adam类优化器中用于防止分母为0的新的常数项随着训练的迭代次数增加而趋势不断地减小,其中为一阶矩估计的指数衰减率,为二阶矩估计的指数衰减率。本发明旨在解决使用Adam类优化器训练大模型时产生损失突刺问题,从而减少大模型训练损失突刺的产生,从而提高大模型训练的收敛速度和训练效率。