一种用于大语言模型端侧部署的迭代式量化感知训练方法
申请号:CN202511081704
申请日期:2025-08-04
公开号:CN120579587B
公开日期:2025-11-28
类型:发明专利
摘要
本发明提供了一种用于大语言模型端侧部署的迭代式量化感知训练方法,可应用于大语言模型技术领域。该方法包括:通过比例调度器按训练阶段动态分配权重量化比例,避免对关键参数的过度压缩,减少端侧设备因低精度计算导致的性能损失;通过布尔型掩码矩阵选择性保留原始参数,降低自注意力层中关键权重的量化误差,维持生成式大语言模型在端侧解码的准确性;通过掩码矩阵生成的稀疏化参数结构,可触发硬件加速器的稀疏计算优化,提升推理吞吐量;此外,本发明提供的多阶段量化参数更新策略,允许针对不同硬件调整量化粒度,避免传统一次性量化导致的跨平台兼容性问题。
技术关键词
大语言模型
掩码矩阵
阶段
参数
文本
智能医疗终端
智能教育终端
语言模型技术
智能家居终端
机器翻译模型
交叉注意力机制
客户端
移动通讯设备
硬件加速器
数据
调度器
兼容性问题
问答模型
智能机器人