一种基于低秩压缩的大语言模型加速方法及实现装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于低秩压缩的大语言模型加速方法及实现装置
申请号:CN202410865324
申请日期:2024-07-01
公开号:CN118396068B
公开日期:2024-10-08
类型:发明专利
摘要
本发明涉及大语言模型技术领域,特别涉及一种基于低秩压缩的大语言模型加速方法及实现装置。该基于低秩压缩的大语言模型加速方法,使用自适应交叉近似算法对大语言模型的权重矩阵进行矩阵压缩分解,并得到权重矩阵的秩;然后再将权重矩阵的秩应用到基于LoRA微调过程中的低秩参数化更新矩阵上,作为其设定的秩进行微调训练,实现更新矩阵秩的自适应设置。该基于低秩压缩的大语言模型加速方法及实现装置,不仅降低了大语言模型在部署过程中的存储资源需求,还实现了微调过程中低秩参数化更新矩阵秩取值的自适应匹配,提高了应用的普适性,降低了大语言模型的使用算力门槛,加速了大语言模型的落地应用。
技术关键词
矩阵 模型加速方法 近似误差 近似算法 元素 大语言模型 索引 模型预训练 深度神经网络 存储模块 可读存储介质 存储计算机程序 加速设备 复杂度 格式 参数 门槛 处理器 存储器