一种面向用户偏好导向的指令调优数据选择方法

申请号：CN202510679407

申请日期：2025-05-26

公开号：CN120197712A

公开日期：2025-06-24

类型：发明专利

摘要

本发明涉及大语言模型技术领域，提供一种面向用户偏好导向的指令调优数据选择方法，通过预训练的大语言模型进行监督微调，获得监督微调大语言模型；构建预热偏好数据集优化监督微调大语言模型；通过基础候选模型生产验证指令的基础候选响应，通过偏好候选模型生成所述验证指令的偏好候选响应；根据评价模型进行评价，并根据评价结果构建偏好对集合；运用偏好损失函数计算偏好梯度，获得双向用户偏好梯度；对训练数据进行评分，根据评分选择训练数据集，对直接偏好大语言模型进行微调，获得优化后的大语言模型。本发明能够显著提高所选数据与目标任务的匹配度，提高指令微调模型在目标任务上的泛化能力。

技术关键词

大语言模型指令数据样本基础损失函数优化模拟退火算法三元组策略表达式参数线性

系统为您推荐了相关专利信息

基于大数据分析的电力安全操作报警监测系统及方法

报警监测系统标注设备作业安全设备人工智能模型设备识别

基于自监督学习与深度学习融合的细小裂缝分类方法

深度学习融合分类方法裂缝通道注意力机制无标签数据

一种基于车速预测的换挡控制系统及方法

换挡控制系统发动机转速车载传感器换挡控制方法序列

一种数据对齐方法及系统

数据对齐方法序列数据处理算法数据对齐模块数据对齐系统

一种基于以太网安全TRDP通信协议解析的网关系统

解析平台网关系统 TRDP协议接口控制芯片