摘要
本发明属于自然语言处理技术领域,提供了一种互联网文本层次多标签分类方法及系统,在训练过程中首先对原始文本进行增强,得到增强文本,将原始文本与其增强文本作为正样本对挖掘标签间共现关系;将具有直接层次关系的标签作为正标签对挖掘标签间层次关系;然后对原始标签特征进行差异化增强,通过高频共现标签信息增强低频标签,通过历史标签信息增强高频标签;最后将文本特征和增强后的标签特征进行双向交互,利用标签与文本之间潜在的语义关联进行二次增强,得到分类特征;基于分类特征进行分类,得到分类结果,达到了丰富标签和文本的语义特征的目的,同时利用标签之间的共现关系和层次关系提高了层次多标签分类的分类精度。