摘要
本发明公开了一种基于知识边界的动态数据选择方法,包括如下步骤:S1、基于基准大模型将初始数据划分为边界样本和典型样本;S2、基于基准大模型对所有的样本数据进行编码;S3、对编码后的数据进行贡献度降维;S4、设定选择两种样本数据的数量以及比例;S5、分别从典型样本和边界样本中抽取数据样本;S6、将两种数据样本进行合并得到种子数据;S7、使用种子数据对基准大模型进行微调,并验证微调后的模型对任务的表现;S8、更改S4中边界样本和典型样本的数量或者比例,重复执行S5至S7,得到的最好的表现结果即为高质量数据。本发明提高了高质量数据选择的效率和有效性,并减轻了高维空间带给数据度量的负面影响。