一种基于大语言模型的数据集关键词生成及筛选方法

申请号：CN202411592080

申请日期：2024-11-08

公开号：CN119474339A

公开日期：2025-02-18

类型：发明专利

摘要

本发明提出了一种基于大语言模型的数据集关键词生成及筛选方法，属于自然语言处理和人工智能领域。所述方法包括：收集评论文本数据及其已知关键词；文本数据分块；大语言模型生成初步关键词；结合TF‑IDF算法和TextRank算法对初步关键词列表中的初步关键词进行初步筛选；通过大语言模型对初步筛选后的关键词进行语义与情感相关性筛选，得到最终关键词。本发明在关键词生成与筛选技术上取得了显著进步，特别适用于需要高精度、高效率的大规模文本分析任务。

技术关键词

关键词大语言模型筛选方法文本语义数据列表词语 BERT模型筛选技术算法滑动窗口论文自然语言分块主题网络高效率节点