摘要
本申请公开了一种基于目标数据对齐的文本数据筛选方法。收集多条目标数据组成目标数据集。分别利用待筛选数据集、目标数据集作为训练数据,训练出待筛选数据语言特征提取模型、目标数据语言特征提取模型。采用两个模型对每条待筛选数据计算困惑度增益。采用嵌入式编码模型对每条待筛选数据和每条目标数据进行嵌入式编码,然后对每条待筛选数据都与所有的目标数据计算余弦相似度,取其中的最大值作为余弦相似度指标。根据每条待筛选数据的数据困惑度和余弦相似度指标,计算该条待筛选数据的最终得分;对所有待筛选数据的最终得分进行排序,挑选最终得分较高的待筛选数据作为筛选结果。本申请能提高筛选准确性,提高所选数据质量。