摘要
本申请公开了一种大语言模型推理优化方法、装置、设备及存储介质,涉及机器学习技术领域,包括:对初始大语言模型进行结构化剪枝,以获取待调整大语言模型;其中,待调整大语言模型为预训练的模型,且在模型训练阶段已完成模型量化;获取目标待推理数据,判断目标待推理数据是否小于预设长度阈值,若目标待推理数据不小于预设长度阈值,则将目标待推理数据切分为目标长度的数据片段;获取目标待推理数据的特征信息,根据特征信息自动对待调整大语言模型中的初始上下文窗口进行调整,以获取相应的目标大语言模型,并利用目标大语言模型对数据片段进行推理。通过对模型进行量化处理,且对数据进行分片,提高了模型推理的效率与可扩展性。