摘要
本申请提供了一种面向边缘计算的大模型压缩和部署方法及装置,该方法包括:基于实时监测的边缘设备的硬件资源信息和大模型当前任务的任务信息动态调整大模型的动态剪枝策略和量化方式,基于调整后的动态剪枝策略和量化方式对大模型进行压缩,将压缩后的大模型部署到边缘设备中,基于多个通过网络连接的边缘设备组建对应的边缘设备集群,在边缘设备集群中设置一分布式任务调度器,以通过分布式任务调度器根据硬件资源信息和当前任务的负载,将大模型的任务分配到各个边缘设备,通过边缘设备对任务进行执行时,响应于边缘设备查询到所有边缘设备的本地缓存中存在目标常用数据和模型中间结果,则将目标常用数据和模型中间结果进行融合以执行任务。