一种面向用户偏好导向的指令调优数据选择方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向用户偏好导向的指令调优数据选择方法
申请号:CN202510679407
申请日期:2025-05-26
公开号:CN120197712A
公开日期:2025-06-24
类型:发明专利
摘要
本发明涉及大语言模型技术领域,提供一种面向用户偏好导向的指令调优数据选择方法,通过预训练的大语言模型进行监督微调,获得监督微调大语言模型;构建预热偏好数据集优化监督微调大语言模型;通过基础候选模型生产验证指令的基础候选响应,通过偏好候选模型生成所述验证指令的偏好候选响应;根据评价模型进行评价,并根据评价结果构建偏好对集合;运用偏好损失函数计算偏好梯度,获得双向用户偏好梯度;对训练数据进行评分,根据评分选择训练数据集,对直接偏好大语言模型进行微调,获得优化后的大语言模型。本发明能够显著提高所选数据与目标任务的匹配度,提高指令微调模型在目标任务上的泛化能力。
技术关键词
大语言模型 指令 数据 样本 基础 损失函数优化 模拟退火算法 三元组 策略 表达式 参数 线性
系统为您推荐了相关专利信息
报警监测系统 标注设备 作业安全设备 人工智能模型 设备识别
深度学习融合 分类方法 裂缝 通道注意力机制 无标签数据
换挡控制系统 发动机转速 车载传感器 换挡控制方法 序列
数据对齐方法 序列 数据处理算法 数据对齐模块 数据对齐系统
解析平台 网关系统 TRDP协议 接口 控制芯片