网络词语采集方法及系统

申请号：CN202410742497

申请日期：2024-06-11

公开号：CN118734835A

公开日期：2024-10-01

类型：发明专利

摘要

本发明公开了网络词语采集方法及系统，属于自然语言处理技术领域，要解决的技术问题为：在无需大量标注的前提下、如何快速及时的从海量额网络文本中识别和提取具有代表性和独特性的网络词语。包括如下步骤：通过爬虫技术从多个网络平台中获取网络文本数据；通过自然语言处理工具对网络文本数据集进行预处理；以预处理后的网络文本数据为输入、通过当前的词语学习模型预测输出词语特征，并对当前的词语学习模型进行模型训练；对输出的词语特征进行筛选和验证，将通过筛选和验证的网络词语存储至网络词语库中；定期执行数据采集、数据预处理、特征提取及模型训练、以及词语筛选操作，以更新网络词语库。

技术关键词

词语文本自然语言采集系统统计特征爬虫技术网络平台深度学习算法模型训练模块数据采集模块冗余数据存储分词关系标签