基于混合专家的大语言模型知识编辑系统

申请号：CN202510160370

申请日期：2025-02-13

公开号：CN120197694A

公开日期：2025-06-24

类型：发明专利

摘要

本发明公开了一种基于混合专家的大语言模型知识编辑系统，属于自然语言处理领域。本发明结合了混合专家架构和关键词注意力路由器，实现了在保持大语言模型原有参数不变的情况下对模型知识的动态更新；本发明提出了一种单层旁路混合专家适配器，该适配器仅在模型中引入单层的额外专家，并通过关键词注意力路由器将具有相似知识需求的输入路由到相同的专家，从而使专家能够高效区分并处理不同类型的知识信息；本发明还提出了一种基于语义的数据批处理方法，通过在训练阶段对相似实例进行分组，促进专家模型的专业化，更好的符合大语言模型的知识学习偏好。本发明在多种类型和规模的模型上，以及各种编辑任务中均表现出卓越的性能，实现泛化能力与局部优化之间的平衡。

技术关键词

大语言模型编辑系统关键词语义适配器数据批处理方法命名实体识别技术路由器标记单层注意力机制聚类算法动态更新自然语言网络结构旁路决策

系统为您推荐了相关专利信息

核对方法、装置和计算机设备

业务系统金融核对系统逻辑基准

一种轻量化的文本生成视频方法和装置

令牌时序视频装置适配器滤波器

一种基于大数据与大语言模型的个性化用户行为提示方法

提示方法因子序列同义词大数据

一种医疗服务有效性评估方法、系统及介质

有效性评估方法 Apriori算法关联特征数据服务质量评估关联规则提取

一种人岗匹配方法及系统

大语言模型模型训练模块分类阈值匹配模块注意力