一种基于受限偏好标识排序的偏好对齐模型训练方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种基于受限偏好标识排序的偏好对齐模型训练方法
申请号:
CN202411713028
申请日期:
2024-11-27
公开号:
CN119202915B
公开日期:
2025-04-08
类型:
发明专利
摘要
本发明公开了一种基于受限偏好标识排序的偏好对齐模型训练方法,包括基于SFT数据集,构建候选偏好数据集;基于候选偏好数据集,构建受限偏好标识排序数据集;采用受限偏好标识排序数据集训练SFT模型,得到偏好对齐模型。本发明能够避免大语言模型在训练中出现不稳定、过拟合等问题,无需人工标注大量偏好数据,并且大幅度减少训练偏好对齐模型所需的算力。
技术关键词
答案
模型训练方法
标识
受限
数据
列表
大语言模型
策略
文本
指令