摘要
本申请实施例提供一种负样本构建、模型训练方法及设备。该方法包括:获取正样本集合,其中,正样本集合包括多个正样本,每一正样本包括查询语句和查询语句的关联文本;将正样本集合中的任一正样本作为目标正样本,对于每一其余正样本,计算目标正样本的目标查询语句和目标关联文本中至少一个与该其余正样本的查询语句和关联文本各自的相似度;将相似度大于等于预设阈值的至少一个其余正样本作为候选样本,提取每一候选样本中的关联文本作为第一文本,构建包括第一文本与目标查询语句的第一负样本,得到第一负样本集合。上述第一负样本与正样本之间的区分度较小,使用上述负样本训练后的模型具有更高的检测精度和更好的泛化能力。