一种基于LLM2Vec算法的文本查重方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于LLM2Vec算法的文本查重方法及系统
申请号:CN202410954853
申请日期:2024-07-17
公开号:CN118885602A
公开日期:2024-11-01
类型:发明专利
摘要
本发明公开了一种基于LLM2Vec算法的文本查重方法及系统,用于文本查重技术领域,该基于LLM2Vec算法的文本查重方法及系统包括以下步骤:使用LLM2Vec算法将文本转换为特征向量;利用余弦相似度方法计算各特征向量之间的余弦相似度;预设相似度阈值,将计算得到的余弦相似度与相似度阈值比较,并判断本文之间是否相似。本发明通过生成高质量文本向量表示的文本编码器,不仅能够捕捉文本的丰富语义信息,还能够区分不同文本之间的细微差别,这对于各种自然语言处理任务都是非常有价值的。
技术关键词
文本查重方法 文本编码器 向量空间模型 查重系统 算法 注意力 特征提取模块 模型训练模块 解码器 序列 矩阵 自然语言 语义 元素