摘要
本发明公开了一种基于混合词向量编码的文本监测方法及装置;其中方法包括:爬取舆情文本;利用BERT模型对舆情文本进行编码,得到每个字对应的字向量;对舆情文本进行分词得到多个词语;从预设的词典中查找词语对应的第一词向量;第一词向量是利用线性判别分析法对初始词向量按照类别进行词向量聚类得到的、空间各向异性改进的词向量;根据字向量得到词语对应的第二词向量,将词语对应的第一词向量和第二词向量进行合并,得到改进词向量;基于改进词向量进行舆情监测,本发明解决了现有技术使用BERT模型进行词向量编码时存在的词向量编码空间狭窄、各向异性明显的问题。