摘要
本发明涉及大语言模型技术领域,提供一种面向用户偏好导向的指令调优数据选择方法,通过预训练的大语言模型进行监督微调,获得监督微调大语言模型;构建预热偏好数据集优化监督微调大语言模型;通过基础候选模型生产验证指令的基础候选响应,通过偏好候选模型生成所述验证指令的偏好候选响应;根据评价模型进行评价,并根据评价结果构建偏好对集合;运用偏好损失函数计算偏好梯度,获得双向用户偏好梯度;对训练数据进行评分,根据评分选择训练数据集,对直接偏好大语言模型进行微调,获得优化后的大语言模型。本发明能够显著提高所选数据与目标任务的匹配度,提高指令微调模型在目标任务上的泛化能力。