摘要
本发明涉及大语言模型中司法指令训练数据选择领域,尤其涉及一种基于大模型感知的多样化司法指令数据选择方法及系统。基于大模型感知的多样化司法指令数据选择方法,包括:将原始司法指令数据中的所有数据输入到大语言模型中进行推理,提取每条司法指令数据在推理过程中触发的神经元激活状态,将激活函数的输出处理成激活标签,筛选的司法指令数据的激活标签,基于筛选的司法指令数据的激活标签,选取包含最多种类激活标签的司法指令数据,得到采样后的司法指令数据子集。本发明确保所选的司法指令数据子集具有更好的多样性和覆盖性,降低了计算和时间成本。