摘要
本发明公开了一种基于混合专家的大语言模型知识编辑系统,属于自然语言处理领域。本发明结合了混合专家架构和关键词注意力路由器,实现了在保持大语言模型原有参数不变的情况下对模型知识的动态更新;本发明提出了一种单层旁路混合专家适配器,该适配器仅在模型中引入单层的额外专家,并通过关键词注意力路由器将具有相似知识需求的输入路由到相同的专家,从而使专家能够高效区分并处理不同类型的知识信息;本发明还提出了一种基于语义的数据批处理方法,通过在训练阶段对相似实例进行分组,促进专家模型的专业化,更好的符合大语言模型的知识学习偏好。本发明在多种类型和规模的模型上,以及各种编辑任务中均表现出卓越的性能,实现泛化能力与局部优化之间的平衡。