一种大语言模型推理优化方法、装置、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种大语言模型推理优化方法、装置、设备及存储介质
申请号:CN202510223625
申请日期:2025-02-27
公开号:CN119808961A
公开日期:2025-04-11
类型:发明专利
摘要
本申请公开了一种大语言模型推理优化方法、装置、设备及存储介质,涉及机器学习技术领域,包括:对初始大语言模型进行结构化剪枝,以获取待调整大语言模型;其中,待调整大语言模型为预训练的模型,且在模型训练阶段已完成模型量化;获取目标待推理数据,判断目标待推理数据是否小于预设长度阈值,若目标待推理数据不小于预设长度阈值,则将目标待推理数据切分为目标长度的数据片段;获取目标待推理数据的特征信息,根据特征信息自动对待调整大语言模型中的初始上下文窗口进行调整,以获取相应的目标大语言模型,并利用目标大语言模型对数据片段进行推理。通过对模型进行量化处理,且对数据进行分片,提高了模型推理的效率与可扩展性。
技术关键词
大语言模型 数据 任务分配策略 推理服务器 负载均衡算法 机器学习技术 模型剪枝 优化装置 会话 精度 阶段 可读存储介质 处理器 节点 电子设备 分片 模块 模式 存储器