基于大模型感知的多样化司法指令数据选择方法及系统

申请号：CN202510370950

申请日期：2025-03-27

公开号：CN119886229B

公开日期：2025-06-27

类型：发明专利

摘要

本发明涉及大语言模型中司法指令训练数据选择领域，尤其涉及一种基于大模型感知的多样化司法指令数据选择方法及系统。基于大模型感知的多样化司法指令数据选择方法，包括：将原始司法指令数据中的所有数据输入到大语言模型中进行推理，提取每条司法指令数据在推理过程中触发的神经元激活状态，将激活函数的输出处理成激活标签，筛选的司法指令数据的激活标签，基于筛选的司法指令数据的激活标签，选取包含最多种类激活标签的司法指令数据，得到采样后的司法指令数据子集。本发明确保所选的司法指令数据子集具有更好的多样性和覆盖性，降低了计算和时间成本。

技术关键词

标签指令数据标记索引计算机程序产品处理器大语言模型采样模块频率计算机设备可读存储介质存储器序列参数