一种基于大模型的双层次优化AI训练数据的方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大模型的双层次优化AI训练数据的方法
申请号:CN202510593422
申请日期:2025-05-09
公开号:CN120561579B
公开日期:2026-01-02
类型:发明专利
摘要
本发明提供一种基于大模型的双层次优化AI训练数据的方法,涉及人工智能领域,所述方法包括:利用大语言模型的随机性生成能力,对历史数据中的每个问题和指令,通过高随机性超参数配置生成多个同源答案;基于多个同源答案,通过预训练的教师模型在低随机性超参数配置下进行评分,生成偏好数据对,并筛选出评分高于阈值的答案作为高质量监督微调数据;将步骤S1生成的同源答案与步骤S2中对应的评分结果对应,构建用于直接偏好优化的初级偏好数据,并结合筛选后的高质量SFT数据形成第一层次优化数据。本发明通过双层次优化架构和动态调整机制,在保证数据质量的前提下提升AI训练效率,为大规模模型训练提供了可靠的数据支撑。
技术关键词
数据 超参数 大语言模型 训练集 轨迹 多轮对话场景 教师 生成指令 逻辑 动态调整机制 可读存储介质 生成答案 模板 处理器 语义 程序
系统为您推荐了相关专利信息
训练分类器 样本 随机森林 列表 数据清洗技术
地形测量方法 沿海滩涂 气垫 姿态传感器 非瞬时性计算机可读存储介质
镜头 视频剪辑方法 音乐节奏识别 自动语音识别技术 深度学习模型
工业时序数据 移动平均滤波器 非线性 传播算法 矩阵
系统资源使用率 业务流程执行 挖掘技术 信息系统 迁移方法