网络词语采集方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
网络词语采集方法及系统
申请号:CN202410742497
申请日期:2024-06-11
公开号:CN118734835A
公开日期:2024-10-01
类型:发明专利
摘要
本发明公开了网络词语采集方法及系统,属于自然语言处理技术领域,要解决的技术问题为:在无需大量标注的前提下、如何快速及时的从海量额网络文本中识别和提取具有代表性和独特性的网络词语。包括如下步骤:通过爬虫技术从多个网络平台中获取网络文本数据;通过自然语言处理工具对网络文本数据集进行预处理;以预处理后的网络文本数据为输入、通过当前的词语学习模型预测输出词语特征,并对当前的词语学习模型进行模型训练;对输出的词语特征进行筛选和验证,将通过筛选和验证的网络词语存储至网络词语库中;定期执行数据采集、数据预处理、特征提取及模型训练、以及词语筛选操作,以更新网络词语库。
技术关键词
词语 文本 自然语言 采集系统 统计特征 爬虫技术 网络平台 深度学习算法 模型训练模块 数据采集模块 冗余 数据存储 分词 关系 标签