模型指令数据处理方法、装置、电子设备及存储介质

申请号：CN202510258685

申请日期：2025-03-05

公开号：CN120297406A

公开日期：2025-07-11

类型：发明专利

摘要

本公开关于一种模型指令数据处理方法、装置、电子设备及存储介质，方法包括：获取第一指令数据集中各指令数据的数据质量；根据各指令数据的数据质量，对第一指令数据集进行筛选，得到第二指令数据集；标注第二指令数据集中各指令数据的模型任务类型，以及，提取第二指令数据集中各指令数据的语义特征；根据各指令数据的模型任务类型和各指令数据的语义特征，对第二指令数据集进行筛选，得到用于对大语言模型进行指令对齐的目标指令数据集；目标指令数据集包括属于不同模型任务类型的至少两个指令数据，至少两个指令数据的语义相似度大于预设相似度阈值。采用本公开可以提高大规模语言模型的互动性能。

技术关键词

指令数据处理方法节点语义特征电子设备代表大语言模型计算机程序产品队列处理器可读存储介质数据处理装置存储器机制