大语言模型训练方法和推理方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大语言模型训练方法和推理方法
申请号:CN202511020283
申请日期:2025-07-23
公开号:CN120875045A
公开日期:2025-10-31
类型:发明专利
摘要
本公开提出了一种LLM训练方法和推理方法。LLM具有堆叠的L个层,L个层具有相同的内部结构并且各自包括MoE子层,每个MoE子层包括门控模块和多个专家模块,该训练方法包括:从L个层中选择M个层;对M个层中的M个MoE子层进行分组;以及将同一分组内的不同MoE子层的多个专家模块配置为引用同一组可训练权重参数;以及基于训练数据对经配置后的LLM进行训练。由此得到的LLM的同一分组内的MoE子层共享专家池参数。通过为MoE架构引入重参数机制,复用动态路由的专家参数,能在激活可用的专家池空间和激活参数量保持不变的前提下,有效压缩模型整体参数量,进而降低部署所需内存,以更好地适配各类端侧设备的需求。
技术关键词
推理方法 计算机程序指令 模块 深度学习模型 大语言模型 参数 计算机程序产品 处理器 文本 终端设备 数据 内存 语音 存储器 机制 动态 图像
系统为您推荐了相关专利信息
动态监测数据 异常状态 故障分类模型 感知诊断装置 诊断方法
仿真训练系统 AR智能眼镜 康复动作 密钥管理系统 患者乳房
状态监测系统 抗干扰通信模块 智能故障诊断 柔性传感模块 设备运行参数
可视化检测系统 声波 频率 样本 中央控制单元
叉车 运营管理系统 轮廓模型 仓库 物流运输监管