一种大语言模型训练加速方法

申请号：CN202410747978

申请日期：2024-06-11

公开号：CN118779095B

公开日期：2025-04-22

类型：发明专利

摘要

本发明提供一种大语言模型训练加速方法，包括以下步骤：对大模型的不同网络层进行数学建模，分析对应层的参数量，计算不同层的计算量：模型参数量是指一个神经网络或机器学习模型中可以进行学习和调整的参数的数量，这些参数包括权重和偏置，它们在训练过程中会不断地更新以优化模型的性能，模型计算量以FLOPs表示浮点数运算次数，衡量了计算量的大小。本发明提供的本发明提供一种大语言模型训练加速方法，能够对大模型训练中的资源占用进行准确评估，进一步分析以找到大模型训练中的瓶颈，并帮助研究者门提出大模型加速训练方法，对于大模型领域的分析和优化训练具有重要意义。

技术关键词

大语言模型参数优化器加速训练方法内存模型主体机器学习模型矩阵浮点数数学阶段数据同步注意力代表元素瓶颈阶梯做法模块

系统为您推荐了相关专利信息

一种混流式水轮机转轮叶片修型方法

水轮机转轮叶片修型方法计算机辅助设计技术网格识别叶片

一种核磁检查数字化辅助装置

标准化方法样本数据采集模块深度学习算法参数

电动汽车电机保温罩的设计参数优化方法及系统

参数优化方法冷却液保温电机壳体参数优化系统

一种基于视觉识别的皮棉异纤清理检测系统

高阶奇异值分解方差贡献率分块核心高光谱成像仪

一种远距离成像显示器及其显示控制方法

成像显示器远距离校正显示控制方法画面