基于大模型生成实体识别数据集的方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于大模型生成实体识别数据集的方法及系统
申请号:CN202510365902
申请日期:2025-03-26
公开号:CN120218213A
公开日期:2025-06-27
类型:发明专利
摘要
本发明公开了基于大模型生成实体识别数据集的方法及系统,方法包括:从垂直领域的知识图谱数据库导出所有的实体,生成实体列表;在实体列表中采样若干个实体;利用大模型生成包含所采样的实体的文本;匹配标注文本中的实体得到标签,利用文本和标签生成数据集;利用大模型验证数据集,过滤掉数据集中不规范的数据;本发明的优点在于:保证文本中标注的实体词真实可靠,构建的数据集中不存在噪声。
技术关键词
实体 知识图谱数据库 文本 生成数据集 标签 列表 采样模块 大语言模型 定义 指令 关系 噪声