摘要
本申请公开了一种模型压缩方法、装置及电子设备。其中,该方法包括:获取初始模型,其中,初始模型中包括多个Transformer模块,且初始模型为权重以浮点形式存在的大语言模型;采用伪量化节点对初始模型的浮点型权重进行量化操作,得到第一模型,其中,伪量化节点用于模拟初始模型的量化效果;确定第一模型Transformer模块中的多头注意力模块,并丢弃多头注意力模块中低于预设阈值的注意力头,得到压缩模型。本申请解决了由于相关技术在对大语言模型进行压缩处理时,无法合理地确定压缩方法及压缩参数的技术问题。