基于低比特浮点数与模型训练后量化的模型压缩方法

申请号：CN202411939757

申请日期：2024-12-26

公开号：CN119862917A

公开日期：2025-04-22

类型：发明专利

摘要

本发明公开了一种基于低比特浮点数与模型训练后量化的模型压缩方法，该模型压缩是适用于卷积网络和线性网络的。支持用户将高精度的模型压缩为4位或8位的低比特浮点数表示的模型。该方法通过用户设定的比特位宽进行模型压缩，在模型量化模块层内，使用了一种配置搜索算法找到最优的低比特浮点数量化配置，支持相同位宽的混合量化方案，其中相同位宽的浮点数存在多种指数位和尾数位的组合；在模型量化模块层之间的有数据校准的场景下，使用了一种联合校准优化流程，通过将原模型的输出作为当前量化后模型的数据校准对象，最大限度地减少量化后模型与原模型之间的输出误差，从而维持模型压缩后的精度。本发明提出使用低比特浮点数进行PTQ的模型压缩方法，为PTQ提供了一种新方案，可广泛应用于各种模型压缩的训练后量化任务中，维持模型压缩后的精度。

技术关键词

浮点数配置搜索空间模型压缩方法网络模块通道元素量化误差格式场景矩阵标识数据校准符号二维卷积网络