摘要
本发明公开了一种对话语料的去重方法及装置、介质、计算机设备,涉及自然语言处理技术领域,可应用于数字医疗领域和金融领域,主要目的在于解决现有对话语料去重效率较低的问题。主要包括获取待去重的目标对话语料库,并从目标对话语料库中提取多个目标语料,包括用户语料、客服语料和对话事件语料;分别提取各目标语料中的无应答文本语料,对无应答文本语料的词向量转换结果进行聚类,并依据聚类结果进行去重,得到去重后的用户语料、去重后的客服语料和去重后的对话事件语料;依据所述去重后的用户语料和所述去重后的客服语料对所述去重后的对话事件语料进行文本增强,得到所述目标对话语料的去重结果。主要用于去除重复的对话语料。