基于知识增强的文本主题抽取方法、装置及电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于知识增强的文本主题抽取方法、装置及电子设备
申请号:CN202410819232
申请日期:2024-06-24
公开号:CN118779447A
公开日期:2024-10-15
类型:发明专利
摘要
本发明公开了一种基于知识增强的文本主题抽取方法、装置及电子设备,该方法包括:对待抽取文本进行前处理;对前处理后的待抽取文本进行篇幅判断,将待抽取文本分为长文本和短文本;当待抽取文本为长文本时,对前处理后的待抽取文本进行词嵌入处理,得到待抽取文本特征;将待抽取文本特征与获得的与待抽取文本特征匹配的领域特征进行特征融合,得到融合特征;对融合特征进行主题抽取,得到文本主题;当待抽取文本为短文本时,对前处理后的待抽取文本进行关键词抽取,得到文本主题。本发明提出了一种行业通用且面对不同规模不同质量文本皆有效的主题抽取方法,解决了相关主题抽取模型无法区分领域特征、鲁棒性不强,且过于依赖文本特性的问题。
技术关键词
主题抽取方法 文本 融合特征 关键词 抽取装置 模块 电子设备 算法 处理器 存储器 鲁棒性 分词 聚类 规模 数据