一种基于文档重排序的数据预标注方法、装置、设备及存储介质
申请号:CN202510782875
申请日期:2025-06-12
公开号:CN120670530A
公开日期:2025-09-19
类型:发明专利
摘要
本申请公开了一种基于文档重排序的数据预标注方法、装置、设备及存储介质,涉及自然语言处理技术领域,包括:设定当前排序列表中的第一个待排序文档为已排序文档,设定下一个待排序文档为当前待排序文档;按照从后向前的顺序选取还未被选取过的一个已排序文档为当前待比较已排序文档;确定当前待排序文档是否高于当前待比较已排序文档与目标检索问题的相关性,若是,位置调换当前待排序文档和当前待比较已排序文档,跳转至设定当前排序列表中的第一个待排序文档为已排序文档的步骤;若否,则跳转至设定下一个待排序文档为当前待排序文档的步骤,直到所有待排序文档均已排序完成,预标注已排序文档,得到文档数据集。这样能提高标注数据的效率。
技术关键词
列表
标注方法
大语言模型
数据
标注装置
符号结构
标签
模块
数值
格式
自然语言
指令
可读存储介质
信号
模板
处理器
电子设备
语义
存储器
计算机