摘要
本申请公开了一种基于动态令牌路由的混合专家模型优化方法及系统,运用于电子信息技术领域,其方法包括:通过动态评分函数对Transformer模型中的基本单元进行评估,生成每个基本单元的评分结果;根据评分结果和专家路由机制,将基本单元分配至预定义的若干个专家中的一个;采用混合权重共享的分组注意力机制,将专家分配的基本单元映射至不同的注意力头组中进行并行处理;其中,混合权重共享的分组注意力机制为注意力机制中权重共享和混合策略的结合;在混合专家模型的训练过程中,基于辅助损失函数优化路由决策,使推理阶段与训练阶段的路由保持一致;不仅提升了Transformer架构的处理效率和性能,还增强了混合专家模型的适应性和稳定性。