摘要
本发明提供了一种大语言模型训练方法、系统及装置,涉及电数字处理技术领域,包括将领域文本训练集划分为若干份训练样本集;根据每个训练样本集内分词的语义变化和频次计算得到每个训练样本集对应的训练关注度;基于所有训练关注度进行最大最小归一化得到每个样本集对应的需求系数;通过LoRA法和所有训练样本集对预设的大语言模型进行多轮微调训练,得到目标大语言模型,多轮微调训练中的秩由需求系数进行调整得到。本发明利用领域文本和通用文本作为对比。通过分析分词在两种文本中的出现频率和语义差异,判断分词是否更多用于专业领域,以此确定训练样本的专业化程度,并针对性分配计算资源进行学习能提升了计算资源分配的准确性。