一种基于趋同性响应的大模型量化方法及相关系统

申请号：CN202510026263

申请日期：2025-01-08

公开号：CN119940573A

公开日期：2025-05-06

类型：发明专利

摘要

本发明属于人工智能技术领域，公开了一种基于趋同性响应的大模型量化方法及相关系统，本发明通过对大模型的各个层与通道进行权重压缩和量化，可以显著减少模型的存储需求和计算负担。这有助于将原本需要大量计算资源的模型，转变为适应资源受限设备（如边缘设备或移动设备）的较小模型，降低其对硬件资源的依赖。压缩后的模型通常包含较少的参数和操作，推理过程变得更加高效，从而加速了模型的响应速度。对于在端、边等实时场景中应用的任务，这种速度的提升至关重要。量化后模型的参数精度通常降低，这大大减少了模型所需的存储空间。在资源有限的设备中，这能有效节省内存和存储空间。

技术关键词

通道量化系统大语言模型数据参数资源受限设备人工智能技术模块处理器幅值移动设备存储器样本电子设备内存负担场景精度速度