一种融合主题特征的短文本分类方法

申请号：CN202410757788

申请日期：2024-06-13

公开号：CN118939799A

公开日期：2024-11-12

类型：发明专利

摘要

本发明公开了计算机自然语言处理领域的一种融合主题特征的短文本分类方法。该方法首先从短文本中提取主题特征，通过将LDA模型获取的主题特征与Word2vec生成的词向量进行加权求和来捕捉短文本的核心主题。其次，再将短文本数据集建模为由词图、词性标签图、实体图三个特征图组成的词级组件图，以获得短文本的文本特征。最后，将主题特征与文本特征进行融合，然后动态学习一个短文本图，以编码短文档之间的相似性，从而使更有效的标签传播之间的连接相似的短文档。该方法同时考虑了短文本身的文本特征信息和主题特征信息，丰富了短文本的语义，这极大地促进了分类任务。

技术关键词

主题特征分类方法文本 Word2Vec模型计算机自然语言 LDA主题模型实体带标签嵌入方法节点特征变量分词定义数据索引编码代表