一种基于大语言模型的短文本聚类方法和装置

申请号：CN202510200178

申请日期：2025-02-24

公开号：CN119669476A

公开日期：2025-03-21

类型：发明专利

摘要

本发明公开了一种基于大语言模型的短文本聚类方法和装置，属于自然语言处理技术领域，包括：将短文本转换为向量表示，通过聚类算法对向量表示进行初步聚类得到初始类别；对每个初始类别中所对应的所有短文本，使用大语言模型生成摘要并根据摘要生成用于概括文本核心含义的多个主题标题分别作为子标题，将多个子标题输入大语言模型中进行主题合并得到一个父标题，将父标题和子标题构建为层级化主题体系；大语言模型根据层级化主题体系将待分类的短文本分配到一个或多个类别以完成短文本聚类；对短文本聚类的结果进行质量评估和错误模式分析以优化聚类算法和大语言模型。本发明能够实现短文本的主题自动发现和分类，提高了分类的准确性和效率。

技术关键词

大语言模型主题文本层级摘要语义分析能力执行聚类算法轮廓系数模块树状结构滑动窗口自然语言核心动态标签编码