模型训练方法、装置、存储介质和程序产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
模型训练方法、装置、存储介质和程序产品
申请号:CN202510798377
申请日期:2025-06-13
公开号:CN120654764A
公开日期:2025-09-16
类型:发明专利
摘要
本公开涉及一种模型训练方法、装置、存储介质和程序产品。所述方法包括:在前向传播阶段,对于任一检查点模块,在显存中保存所述检查点模块的输入和输出,并释放显存中的所述检查点模块的中间激活值;所述检查点模块的输入用于重计算中间激活值,所述检查点模块的输出用于所述检查点模块的后续模块的前向计算;在反向传播阶段,对于任一检查点模块,响应于所述检查点模块的最后一层为线性层,跳过所述最后一层的前向计算,根据所述最后一层对应的梯度公式计算梯度,并根据所述检查点模块中各层的梯度,完成对所述检查点模块的反向传播。本公开能够在与标准重计算方案相同的计算精度和显存节省量的同时,显著降低计算开销。
技术关键词
检查点 模型训练方法 线性 模型训练装置 阶段 多层感知机 计算机程序产品 处理器 组合模块 网络模块 矩阵 可读存储介质 存储器 机制