一种基于目标数据对齐的文本数据筛选方法及系统

申请号：CN202410815657

申请日期：2024-06-24

公开号：CN118861194A

公开日期：2024-10-29

类型：发明专利

摘要

本申请公开了一种基于目标数据对齐的文本数据筛选方法。收集多条目标数据组成目标数据集。分别利用待筛选数据集、目标数据集作为训练数据，训练出待筛选数据语言特征提取模型、目标数据语言特征提取模型。采用两个模型对每条待筛选数据计算困惑度增益。采用嵌入式编码模型对每条待筛选数据和每条目标数据进行嵌入式编码，然后对每条待筛选数据都与所有的目标数据计算余弦相似度，取其中的最大值作为余弦相似度指标。根据每条待筛选数据的数据困惑度和余弦相似度指标，计算该条待筛选数据的最终得分；对所有待筛选数据的最终得分进行排序，挑选最终得分较高的待筛选数据作为筛选结果。本申请能提高筛选准确性，提高所选数据质量。

技术关键词

数据筛选方法特征提取模型文本机器学习模型指标编码模型训练模块数据筛选系统数据采集模块序列词嵌入模型语义预训练模型