文本查重方法、装置、设备、存储介质及计算机程序产品
申请号:CN202410875350
申请日期:2024-07-01
公开号:CN119005162B
公开日期:2025-09-09
类型:发明专利
摘要
本申请公开了一种文本查重方法、装置、设备、存储介质及计算机程序产品,涉及文本处理技术领域,公开了文本查重方法,包括:获取待查重文本,并构建待查重文本对应的待查重文本矩阵;将待查重文本矩阵输入预设的词向量转化神经网络,得到待查重文本向量;获取各个对比文本的对比文本向量;确定待查重文本向量与各个对比文本向量之间的文本向量相似度,并根据文本向量相似度确定待查重文本的查重结果。本申请中词向量转化神经网络在训练过程中可以学习到同一语义信息的不同语义表达方式,从而在文本向量中引入了语义信息,可以实现基于语义的文本查重,提高文本查重的准确性。
技术关键词
矩阵
文本查重方法
字典
计算机程序产品
字符
词语
重构
语义
文本处理技术
查重装置
标签
特征值
处理器
标识
模块
可读存储介质
存储器
数据
因子