摘要
本公开关于一种模型指令数据处理方法、装置、电子设备及存储介质,方法包括:获取第一指令数据集中各指令数据的数据质量;根据各指令数据的数据质量,对第一指令数据集进行筛选,得到第二指令数据集;标注第二指令数据集中各指令数据的模型任务类型,以及,提取第二指令数据集中各指令数据的语义特征;根据各指令数据的模型任务类型和各指令数据的语义特征,对第二指令数据集进行筛选,得到用于对大语言模型进行指令对齐的目标指令数据集;目标指令数据集包括属于不同模型任务类型的至少两个指令数据,至少两个指令数据的语义相似度大于预设相似度阈值。采用本公开可以提高大规模语言模型的互动性能。