一种模型训练和业务执行方法、装置、存储介质及设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种模型训练和业务执行方法、装置、存储介质及设备
申请号:CN202411628434
申请日期:2024-11-14
公开号:CN119150804B
公开日期:2025-03-18
类型:发明专利
摘要
本说明书公开了一种模型训练和业务执行方法、装置、存储介质及设备。所述模型训练方法包括:根据预设的数据并行维度和序列并行维度将样本数据切分为多个子样本,并将各子样本分配到不同的图形处理器GPU上;针对每个GPU,在将分配到该GPU上的子样本输入部署在该GPU上的目标模型后,确定目标模型中的每一个子层所对应的激活值并存储,其中,针对每个子层,若该子层对应的层级小于指定层级,则将该子层对应的激活值存储到中央处理器CPU中,并在该GPU中将该子层对应的激活值进行删除;确定目标模型的损失值,并根据损失值以及每个子层所对应的激活值,对目标模型进行训练。本方案有效提高了模型的训练效率和GPU的利用率。
技术关键词
网络模块 层级 业务执行方法 图形处理器 中央处理器 注意力 模型训练方法 归一化模块 投影模块 样本 编码模块 模型训练装置 数据通信 序列 多层感知机 键值 输入模块