一种基于决策咨询服务的关键词提取数据集制作方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于决策咨询服务的关键词提取数据集制作方法
申请号:CN202411640149
申请日期:2024-11-18
公开号:CN119597803A
公开日期:2025-03-11
类型:发明专利
摘要
本发明公开了一种基于决策咨询服务的关键词提取数据集制作方法,包括以下步骤:S1,使用Python语言中的Selenium库抓取网页文本数据并进行数据清洗;S2,连接MySQL数据库,将抓取的数据按时间、标题、内容等维度存储,以确保数据的结构化管理;S3,对标题和文本内容的数据进行中文分词与去除停用词;S4,在Transformer模型的框架下,引入标题信息融入注意力机制的计算,通过标题向量和注意力的结合,引导模型生成关键词;S6,通过余弦相似度测量关键词与原文本的语义相似度,从而筛选出更为精准的关键词。本发明不仅实现了数据抓取和数据集制作功能,同时通过集成标题注意力机制和余弦相似度,提升了关键词提取的精确性。
技术关键词
数据集制作方法 生成关键词 中文分词 决策 解码器 抓取网页 编码器 中文文本 中文关键词 文档关键词 多头注意力机制 语义 序列 符号 格式