一种基于大语言模型的短文本聚类方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大语言模型的短文本聚类方法和装置
申请号:CN202510200178
申请日期:2025-02-24
公开号:CN119669476A
公开日期:2025-03-21
类型:发明专利
摘要
本发明公开了一种基于大语言模型的短文本聚类方法和装置,属于自然语言处理技术领域,包括:将短文本转换为向量表示,通过聚类算法对向量表示进行初步聚类得到初始类别;对每个初始类别中所对应的所有短文本,使用大语言模型生成摘要并根据摘要生成用于概括文本核心含义的多个主题标题分别作为子标题,将多个子标题输入大语言模型中进行主题合并得到一个父标题,将父标题和子标题构建为层级化主题体系;大语言模型根据层级化主题体系将待分类的短文本分配到一个或多个类别以完成短文本聚类;对短文本聚类的结果进行质量评估和错误模式分析以优化聚类算法和大语言模型。本发明能够实现短文本的主题自动发现和分类,提高了分类的准确性和效率。
技术关键词
大语言模型 主题 文本 层级 摘要 语义分析能力 执行聚类算法 轮廓系数 模块 树状结构 滑动窗口 自然语言 核心 动态 标签 编码