摘要
本申请公开了一种模型轻量化方法及电子设备,涉及人工智能技术领域,包括将输入序列划分为多个数据块;基于数据块与多个专家模块的匹配度,确定数据块的路由向量,进而确定每个设备待处理的目标数据块,提高了资源利用率;针对任一远程设备待处理的目标数据块,确定该目标数据块相对于共享基础参数的差异参数,以生成残差数据块,获得聚合请求包,该远程设备基于聚合请求包进行推理,在减少数据传输量的同时,确保推理精度;基于目标专家模块对数据块的推理结果,确定数据块的目标推理结果。解决了相关技术中实现大模型轻量化的方式降低了推理精度的技术问题,达到了在实现大模型轻量化的同时确保推理精度的技术效果。