一种基于离群值抑制的大模型量化算法

申请号：CN202411857119

申请日期：2024-12-17

公开号：CN119808850A

公开日期：2025-04-11

类型：发明专利

摘要

一种基于离群值抑制的大语言模型量化算法，旨在解决现有量化技术中由离群值导致的性能下降问题。该算法通过针对权重、激活值和自注意力离群值的抑制，实现了大模型推理过程中的高精度量化，支持激活与权重整型4位量化操作。具体技术包括随机哈达玛变换以降低权重离群值、缩放因子调整以处理激活离群值，以及自注意力迁移技术以校正注意力离群值。上述方法全面提升了模型推理的数值稳定性和精度。量化后模型显著降低了内存和算力需求，适用于资源受限的环境如边缘设备部署，同时提升了推理效率。本发明为大语言模型的低成本高效部署提供了有力支持，在多个实际场景中具有重要的应用价值。

技术关键词

注意力迁移技术算法因子通道参数矩阵低成本内存受限校正数值场景资源精度