摘要
本发明公开了一种基于量化感知微调的大模型推理方法、装置及介质。其中,方法包括:将大模型的原始参数矩阵进行结构改造,确定各通道原始参数矩阵对应的横向向量化向量、纵向向量化向量以及低比特固定矩阵;基于横向向量化向量、纵向向量化向量以及低比特固定矩阵对大模型进行逐层进行参数量化微调预训练,获取大模型各通道的横向向量化向量值和纵向向量化向量值;根据大模型各通道的横向向量化向量值、纵向向量化向量值以及低比特固定矩阵,确定大模型部署推理的部署参数矩阵;采用部署有部署参数矩阵的大模型对输入数据进行推理分析获取输入数据的推理结果。