一种用于大语言模型端侧部署的迭代式量化感知训练方法

申请号：CN202511081704

申请日期：2025-08-04

公开号：CN120579587B

公开日期：2025-11-28

类型：发明专利

摘要

本发明提供了一种用于大语言模型端侧部署的迭代式量化感知训练方法，可应用于大语言模型技术领域。该方法包括：通过比例调度器按训练阶段动态分配权重量化比例，避免对关键参数的过度压缩，减少端侧设备因低精度计算导致的性能损失；通过布尔型掩码矩阵选择性保留原始参数，降低自注意力层中关键权重的量化误差，维持生成式大语言模型在端侧解码的准确性；通过掩码矩阵生成的稀疏化参数结构，可触发硬件加速器的稀疏计算优化，提升推理吞吐量；此外，本发明提供的多阶段量化参数更新策略，允许针对不同硬件调整量化粒度，避免传统一次性量化导致的跨平台兼容性问题。

技术关键词

大语言模型掩码矩阵阶段参数文本智能医疗终端智能教育终端语言模型技术智能家居终端机器翻译模型交叉注意力机制客户端移动通讯设备硬件加速器数据调度器兼容性问题问答模型智能机器人