一种可拓展大模型训练推理方法、装置、设备及介质

申请号：CN202411847995

申请日期：2024-12-16

公开号：CN119940525B

公开日期：2025-10-21

类型：发明专利

摘要

本发明公开了一种可拓展大模型训练推理方法、装置、设备及介质，其中方法包括：获取文本数据，构建训练集；构建大模型，所述大模型为堆叠式且在水平方向进行知识共享的模型结构，大模型包括多个子模型；构建一个自主动态判别器，每个子模型的输出都会输入自主动态判别器，自主动态判别器的输出作为最终的模型预测；采用训练集对大模型进行训练，将训练后的大模型用于实现文本生成任务。本发明以实现模型自主选择子模型为目标，通过自主动态判别器自主选择参与推理的子模型数量，进而提升大模型推理过程的效率，实现精度与速度的权衡，节省模型推理资源消耗。本发明可广泛应用于人工智能技术领域。

技术关键词

推理方法构建训练集动态文本编码器架构层级模型训练模块推理装置人工智能技术数据获取模块电子设备程序处理器参数可读存储介质存储器表达式阶段定义