模型训练及文本处理方法、计算机程序产品、设备、介质

申请号：CN202410882270

申请日期：2024-07-03

公开号：CN118410854B

公开日期：2024-09-13

类型：发明专利

摘要

本发明公开了模型训练及文本处理方法、计算机程序产品、设备、介质，涉及人工智能技术领域，获取有标签的第一文本，第一文本的长度大于设定长度值，标签用于标记文本中相似的句子；将第一文本切分成文本块；确定文本块对应的文本向量值；对文本向量值进行聚类，得到聚类结果；基于第一文本和聚类结果对文本处理模型进行训练，且文本处理模型用于将文本转换为对应的向量。由于聚类是将相似的对象聚合在一起，所以聚类结果反映了文本向量值间的相似关系，相当于应用第一文本、文本向量值和文本向量值间的相似关系对文本处理模型进行训练，可以避免模型训练时不相干内容的噪音干扰，提高向量空间表征范围，提高文本处理模型对长文本的处理准确性。

技术关键词

文本处理模型模型训练方法文本处理方法聚类注意力计算机程序产品标签分类器多层感知机层可读存储介质存储计算机程序人工智能技术处理器标记标识电子设备