摘要
本发明提供一种混合专家模型的训练方法、装置、电子设备及存储介质,属于大语言模型技术领域,通过将前馈神经网络转换为多个专家单元,提高了第一预设混合专家模型的推理效率和部署灵活性。通过多领域训练样本训练多个输出概率至相同,使得第二预设混合专家模型能够快速收敛。通过多领域训练样本对输出概率进行再次训练,进一步优化了门控层的性能。通过单领域训练样本对第三预设混合专家模型进行训练,使混合专家模型在特定领域达到最佳性能。本发明通过将前馈神经网络转换为多个专家单元,然后对门控层进行三个不同层次的训练,不仅提高了混合专家模型的训练效率,还提高了混合专家模型在特定领域中的数据处理精度和鲁棒性。