一种减少大模型训练突刺问题的改进方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种减少大模型训练突刺问题的改进方法及系统
申请号:CN202411821673
申请日期:2024-12-11
公开号:CN119721161A
公开日期:2025-03-28
类型:发明专利
摘要
本发明公开了一种减少大模型训练突刺问题的改进方法及系统,本发明方法包括在利用训练数据集训练大模型并采用Adam类优化器结合预设的损失函数优化更新大模型的模型参数时,为Adam类优化器用于防止分母为0的常数项引入使得改进后的Adam类优化器中用于防止分母为0的新的常数项随着训练的迭代次数增加而趋势不断地减小,其中为一阶矩估计的指数衰减率,为二阶矩估计的指数衰减率。本发明旨在解决使用Adam类优化器训练大模型时产生损失突刺问题,从而减少大模型训练损失突刺的产生,从而提高大模型训练的收敛速度和训练效率。
技术关键词
优化器 损失函数优化 表达式 参数 自然语言 微处理器 可读存储介质 文本 指数 计算机程序产品 编程 指令 多模态 音频 视频 数据 图像 存储器
系统为您推荐了相关专利信息
部件分割方法 基础 语义特征 物体 图像全局特征
风电功率预测方法 气象 风电功率短期预测 超参数 优化LSTM模型
分类评估方法 非标准 格式化 测试场景 指标
性优化方法 远程等离子体 等离子体鞘层 周期 参数
蜗牛活性肽 高价值特征 酶解工艺 蜗牛黏液 超滤膜截留分子量