摘要
本公开提出了一种LLM训练方法和推理方法。LLM具有堆叠的L个层,L个层具有相同的内部结构并且各自包括MoE子层,每个MoE子层包括门控模块和多个专家模块,该训练方法包括:从L个层中选择M个层;对M个层中的M个MoE子层进行分组;以及将同一分组内的不同MoE子层的多个专家模块配置为引用同一组可训练权重参数;以及基于训练数据对经配置后的LLM进行训练。由此得到的LLM的同一分组内的MoE子层共享专家池参数。通过为MoE架构引入重参数机制,复用动态路由的专家参数,能在激活可用的专家池空间和激活参数量保持不变的前提下,有效压缩模型整体参数量,进而降低部署所需内存,以更好地适配各类端侧设备的需求。