一种基于机器学习的数据处理方法及系统

申请号：CN202411589781

申请日期：2024-11-08

公开号：CN119719374A

公开日期：2025-03-28

类型：发明专利

摘要

本发明涉及政务数据处理技术领域，特别是涉及一种基于机器学习的数据处理方法及系统，本发明在采用注意力机制对双向长短期记忆网络模型进行文本特征提取时，对传统的注意力机制计算权重的公式进行改进，引入了词频作为权重的计算指标，从而使得在注意力机制聚焦过程中对词语的权重的赋值更为精确；同时，根据出现频率确定该词的融合权重，可以有效突出重点词在文本向量中的作用，而出现频率较低的词，和政务系统的中心思想的相关关系则相对较弱，因此，采用固定权重进行分词融合，可有效提高文本向量的提取时间；本实施例根据政务系统的文本特点，在进行分词融合时，采用分段权重融合的方式对所述分词进行融合，以提高文本向量的提取准确度。

技术关键词

数据处理方法文本分词机器学习算法注意力机制词语双向长短期记忆政务数据处理技术政务系统数据处理系统停用词表频率优化器分段模块索引指标定义