模型压缩方法、装置及电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
模型压缩方法、装置及电子设备
申请号:CN202411117996
申请日期:2024-08-14
公开号:CN119089963A
公开日期:2024-12-06
类型:发明专利
摘要
本申请公开了一种模型压缩方法、装置及电子设备。其中,该方法包括:获取初始模型,其中,初始模型中包括多个Transformer模块,且初始模型为权重以浮点形式存在的大语言模型;采用伪量化节点对初始模型的浮点型权重进行量化操作,得到第一模型,其中,伪量化节点用于模拟初始模型的量化效果;确定第一模型Transformer模块中的多头注意力模块,并丢弃多头注意力模块中低于预设阈值的注意力头,得到压缩模型。本申请解决了由于相关技术在对大语言模型进行压缩处理时,无法合理地确定压缩方法及压缩参数的技术问题。
技术关键词
模型压缩方法 注意力 非易失性存储介质 矩阵 模块 节点 浮点数 存储程序指令 电子设备 计算机程序产品 存储器 处理器 数据 因子 非线性 序列 参数