摘要
一种基于离群值抑制的大语言模型量化算法,旨在解决现有量化技术中由离群值导致的性能下降问题。该算法通过针对权重、激活值和自注意力离群值的抑制,实现了大模型推理过程中的高精度量化,支持激活与权重整型4位量化操作。具体技术包括随机哈达玛变换以降低权重离群值、缩放因子调整以处理激活离群值,以及自注意力迁移技术以校正注意力离群值。上述方法全面提升了模型推理的数值稳定性和精度。量化后模型显著降低了内存和算力需求,适用于资源受限的环境如边缘设备部署,同时提升了推理效率。本发明为大语言模型的低成本高效部署提供了有力支持,在多个实际场景中具有重要的应用价值。