摘要
本发明提供一种基于大模型的双层次优化AI训练数据的方法,涉及人工智能领域,所述方法包括:利用大语言模型的随机性生成能力,对历史数据中的每个问题和指令,通过高随机性超参数配置生成多个同源答案;基于多个同源答案,通过预训练的教师模型在低随机性超参数配置下进行评分,生成偏好数据对,并筛选出评分高于阈值的答案作为高质量监督微调数据;将步骤S1生成的同源答案与步骤S2中对应的评分结果对应,构建用于直接偏好优化的初级偏好数据,并结合筛选后的高质量SFT数据形成第一层次优化数据。本发明通过双层次优化架构和动态调整机制,在保证数据质量的前提下提升AI训练效率,为大规模模型训练提供了可靠的数据支撑。