一种大语言模型推理优化方法、装置、设备及存储介质

申请号：CN202510223625

申请日期：2025-02-27

公开号：CN119808961A

公开日期：2025-04-11

类型：发明专利

摘要

本申请公开了一种大语言模型推理优化方法、装置、设备及存储介质，涉及机器学习技术领域，包括：对初始大语言模型进行结构化剪枝，以获取待调整大语言模型；其中，待调整大语言模型为预训练的模型，且在模型训练阶段已完成模型量化；获取目标待推理数据，判断目标待推理数据是否小于预设长度阈值，若目标待推理数据不小于预设长度阈值，则将目标待推理数据切分为目标长度的数据片段；获取目标待推理数据的特征信息，根据特征信息自动对待调整大语言模型中的初始上下文窗口进行调整，以获取相应的目标大语言模型，并利用目标大语言模型对数据片段进行推理。通过对模型进行量化处理，且对数据进行分片，提高了模型推理的效率与可扩展性。

技术关键词

大语言模型数据任务分配策略推理服务器负载均衡算法机器学习技术模型剪枝优化装置会话精度阶段可读存储介质处理器节点电子设备分片模块模式存储器