摘要
本发明属于人工智能技术领域,公开了一种基于趋同性响应的大模型量化方法及相关系统,本发明通过对大模型的各个层与通道进行权重压缩和量化,可以显著减少模型的存储需求和计算负担。这有助于将原本需要大量计算资源的模型,转变为适应资源受限设备(如边缘设备或移动设备)的较小模型,降低其对硬件资源的依赖。压缩后的模型通常包含较少的参数和操作,推理过程变得更加高效,从而加速了模型的响应速度。对于在端、边等实时场景中应用的任务,这种速度的提升至关重要。量化后模型的参数精度通常降低,这大大减少了模型所需的存储空间。在资源有限的设备中,这能有效节省内存和存储空间。