摘要
本发明实施例提供一种基于方差缩减和动量加速的大语言模型优化方法。该方法包括:大语言模型的梯度估计阶段,初始化种子列表以及投影列表;执行多次独立的查询迭代,调用扰动子程序,为大语言模型生成随机种子并存储表;在扰动子程序中,依确定出梯度投影值存储至投影列表,并为了下次查询迭代;在执行多次独立的查询迭代后,存储多个随机种子及与之对应的多个梯度投影值;在大语言模型的权重更新阶段中,对大语言模型的每一层调用梯度范数子程序,获取随机种子重置随机数生成器;将从投影列表取出的梯度投影值与复现的扰动向量确定出方差缩减的梯度估计。本发明实施例聚合多次查询的梯度信息来生成低噪声的梯度估计,完成对大语言模型的微调。