一种融合主题特征的短文本分类方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种融合主题特征的短文本分类方法
申请号:CN202410757788
申请日期:2024-06-13
公开号:CN118939799A
公开日期:2024-11-12
类型:发明专利
摘要
本发明公开了计算机自然语言处理领域的一种融合主题特征的短文本分类方法。该方法首先从短文本中提取主题特征,通过将LDA模型获取的主题特征与Word2vec生成的词向量进行加权求和来捕捉短文本的核心主题。其次,再将短文本数据集建模为由词图、词性标签图、实体图三个特征图组成的词级组件图,以获得短文本的文本特征。最后,将主题特征与文本特征进行融合,然后动态学习一个短文本图,以编码短文档之间的相似性,从而使更有效的标签传播之间的连接相似的短文档。该方法同时考虑了短文本身的文本特征信息和主题特征信息,丰富了短文本的语义,这极大地促进了分类任务。
技术关键词
主题特征 分类方法 文本 Word2Vec模型 计算机自然语言 LDA主题模型 实体 带标签 嵌入方法 节点特征 变量 分词 定义 数据 索引 编码 代表