一种基于动态令牌路由的混合专家模型优化方法及系统

申请号：CN202510294499

申请日期：2025-03-13

公开号：CN120163187A

公开日期：2025-06-17

类型：发明专利

摘要

本申请公开了一种基于动态令牌路由的混合专家模型优化方法及系统，运用于电子信息技术领域，其方法包括：通过动态评分函数对Transformer模型中的基本单元进行评估，生成每个基本单元的评分结果；根据评分结果和专家路由机制，将基本单元分配至预定义的若干个专家中的一个；采用混合权重共享的分组注意力机制，将专家分配的基本单元映射至不同的注意力头组中进行并行处理；其中，混合权重共享的分组注意力机制为注意力机制中权重共享和混合策略的结合；在混合专家模型的训练过程中，基于辅助损失函数优化路由决策，使推理阶段与训练阶段的路由保持一致；不仅提升了Transformer架构的处理效率和性能，还增强了混合专家模型的适应性和稳定性。

技术关键词

模型优化方法动态令牌注意力机制损失函数优化模型优化系统计算机设备电子信息技术表达式阶段处理器决策键值存储器程序指令索引模块