对话语料的去重方法及装置、介质、计算机设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
对话语料的去重方法及装置、介质、计算机设备
申请号:CN202510855805
申请日期:2025-06-24
公开号:CN120763466A
公开日期:2025-10-10
类型:发明专利
摘要
本发明公开了一种对话语料的去重方法及装置、介质、计算机设备,涉及自然语言处理技术领域,可应用于数字医疗领域和金融领域,主要目的在于解决现有对话语料去重效率较低的问题。主要包括获取待去重的目标对话语料库,并从目标对话语料库中提取多个目标语料,包括用户语料、客服语料和对话事件语料;分别提取各目标语料中的无应答文本语料,对无应答文本语料的词向量转换结果进行聚类,并依据聚类结果进行去重,得到去重后的用户语料、去重后的客服语料和去重后的对话事件语料;依据所述去重后的用户语料和所述去重后的客服语料对所述去重后的对话事件语料进行文本增强,得到所述目标对话语料的去重结果。主要用于去除重复的对话语料。
技术关键词
词嵌入向量 文本 客服 聚类 计算机设备 通信接口 核心 处理器 指令 存储器 介质 自然语言 密度 算法 金融 模块