一种面向边缘计算的大模型压缩和部署方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向边缘计算的大模型压缩和部署方法及装置
申请号:CN202510683282
申请日期:2025-05-26
公开号:CN120547248A
公开日期:2025-08-26
类型:发明专利
摘要
本申请提供了一种面向边缘计算的大模型压缩和部署方法及装置,该方法包括:基于实时监测的边缘设备的硬件资源信息和大模型当前任务的任务信息动态调整大模型的动态剪枝策略和量化方式,基于调整后的动态剪枝策略和量化方式对大模型进行压缩,将压缩后的大模型部署到边缘设备中,基于多个通过网络连接的边缘设备组建对应的边缘设备集群,在边缘设备集群中设置一分布式任务调度器,以通过分布式任务调度器根据硬件资源信息和当前任务的负载,将大模型的任务分配到各个边缘设备,通过边缘设备对任务进行执行时,响应于边缘设备查询到所有边缘设备的本地缓存中存在目标常用数据和模型中间结果,则将目标常用数据和模型中间结果进行融合以执行任务。
技术关键词
硬件资源信息 分布式任务调度 动态剪枝 比特数 模型压缩 精度 机器可读指令 策略 集群 低比特量化 补偿值 处理器 可读存储介质 数据 电子设备 存储器 模块 计算机 误差