摘要
本发明涉及政务数据处理技术领域,特别是涉及一种基于机器学习的数据处理方法及系统,本发明在采用注意力机制对双向长短期记忆网络模型进行文本特征提取时,对传统的注意力机制计算权重的公式进行改进,引入了词频作为权重的计算指标,从而使得在注意力机制聚焦过程中对词语的权重的赋值更为精确;同时,根据出现频率确定该词的融合权重,可以有效突出重点词在文本向量中的作用,而出现频率较低的词,和政务系统的中心思想的相关关系则相对较弱,因此,采用固定权重进行分词融合,可有效提高文本向量的提取时间;本实施例根据政务系统的文本特点,在进行分词融合时,采用分段权重融合的方式对所述分词进行融合,以提高文本向量的提取准确度。