基于方差缩减和动量加速的大语言模型优化方法及系统

申请号：CN202511177905

申请日期：2025-08-21

公开号：CN120910340A

公开日期：2025-11-07

类型：发明专利

摘要

本发明实施例提供一种基于方差缩减和动量加速的大语言模型优化方法。该方法包括：大语言模型的梯度估计阶段，初始化种子列表以及投影列表；执行多次独立的查询迭代，调用扰动子程序，为大语言模型生成随机种子并存储表；在扰动子程序中，依确定出梯度投影值存储至投影列表，并为了下次查询迭代；在执行多次独立的查询迭代后，存储多个随机种子及与之对应的多个梯度投影值；在大语言模型的权重更新阶段中，对大语言模型的每一层调用梯度范数子程序，获取随机种子重置随机数生成器；将从投影列表取出的梯度投影值与复现的扰动向量确定出方差缩减的梯度估计。本发明实施例聚合多次查询的梯度信息来生成低噪声的梯度估计，完成对大语言模型的微调。

技术关键词

大语言模型语言模型优化方法列表种子优化器生成随机随机梯度下降模型优化系统计算机程序产品生成低噪声参数阶段内存矩阵存储表处理器通信指令存储器电子设备