一种用于敏感信息识别的领域感知精简数据集构建方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种用于敏感信息识别的领域感知精简数据集构建方法
申请号:CN202510879365
申请日期:2025-06-27
公开号:CN120745614A
公开日期:2025-10-03
类型:发明专利
摘要
本发明属于自然语言处理技术领域,公开了一种用于敏感信息识别的领域感知精简数据集构建方法。本发明通过领域种子驱动构建结构模版,用于大规模伪数据的合成生成,并采用教师模型输出的logits和注意力作为蒸馏信号;通过对logits进行数值裁剪与对注意力分布实施非对称重构,提升伪标签的表达稳定性与边界感知能力;学生模型以软标签拟合、注意力对齐等多目标联合优化方式进行训练,最终在高置信伪标签筛选基础上实现种子自反馈更新,从而完成多轮迭代学习。本发明具备轻量、低依赖、高迁移的特点,适用于敏感信息自动抽取与跨领域实体识别任务。
技术关键词
数据集构建方法 敏感信息识别 注意力 模版 数据生成器 教师 种子 蒸馏 学生 样本 attention机制 标签结构 命名实体识别模型 网页爬虫技术 关键词 矩阵 文本