模型压缩方法、装置及电子设备

申请号：CN202411117996

申请日期：2024-08-14

公开号：CN119089963A

公开日期：2024-12-06

类型：发明专利

摘要

本申请公开了一种模型压缩方法、装置及电子设备。其中，该方法包括：获取初始模型，其中，初始模型中包括多个Transformer模块，且初始模型为权重以浮点形式存在的大语言模型；采用伪量化节点对初始模型的浮点型权重进行量化操作，得到第一模型，其中，伪量化节点用于模拟初始模型的量化效果；确定第一模型Transformer模块中的多头注意力模块，并丢弃多头注意力模块中低于预设阈值的注意力头，得到压缩模型。本申请解决了由于相关技术在对大语言模型进行压缩处理时，无法合理地确定压缩方法及压缩参数的技术问题。

技术关键词

模型压缩方法注意力非易失性存储介质矩阵模块节点浮点数存储程序指令电子设备计算机程序产品存储器处理器数据因子非线性序列参数