一种基于离群值抑制的大模型量化算法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于离群值抑制的大模型量化算法
申请号:CN202411857119
申请日期:2024-12-17
公开号:CN119808850A
公开日期:2025-04-11
类型:发明专利
摘要
一种基于离群值抑制的大语言模型量化算法,旨在解决现有量化技术中由离群值导致的性能下降问题。该算法通过针对权重、激活值和自注意力离群值的抑制,实现了大模型推理过程中的高精度量化,支持激活与权重整型4位量化操作。具体技术包括随机哈达玛变换以降低权重离群值、缩放因子调整以处理激活离群值,以及自注意力迁移技术以校正注意力离群值。上述方法全面提升了模型推理的数值稳定性和精度。量化后模型显著降低了内存和算力需求,适用于资源受限的环境如边缘设备部署,同时提升了推理效率。本发明为大语言模型的低成本高效部署提供了有力支持,在多个实际场景中具有重要的应用价值。
技术关键词
注意力 迁移技术 算法 因子 通道 参数 矩阵 低成本 内存 受限 校正 数值 场景 资源 精度