一种基于反事实数据增强的大语言微调数据筛选方法、系统、设备及存储介质
申请号:CN202510756049
申请日期:2025-06-07
公开号:CN120873113A
公开日期:2025-10-31
类型:发明专利
摘要
本发明提供一种基于反事实数据增强的大语言微调数据筛选方法、系统、设备及介质,方法包括如下步骤:S1、反事实数据增强,具体包括如下子步骤:S11、生成伪响应;S12、验证伪答案的正确性;S13、生成反事实问题;S14、问题‑答案验证;S2、数据筛选,具体包括如下子步骤:S21、建立反事实数据的质量度量指标;S22、行列式点过程筛选。本发明通过反事实分数和确定性点过程,能够同时考虑数据的质量和多样性,筛选出更优的数据子集;本发明通过反事实数据生成和验证,能够有效提升反事实数据的质量,增强模型在指令微调中的表现;本发明通过确定性点过程的快速实现,能够在较低的计算成本下筛选出高质量数据。
技术关键词
数据筛选方法
非易失性存储介质
答案
数据筛选系统
自然语言推理
矩阵
通信接口
存储器
处理器
存储计算机程序
贪心算法
度量
电子设备
指标
定义
超参数
索引
指令
坐标