融合知识蒸馏与预训练语言模型的非结构化文本标注方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
融合知识蒸馏与预训练语言模型的非结构化文本标注方法
申请号:CN202411697139
申请日期:2024-11-26
公开号:CN119204005A
公开日期:2024-12-27
类型:发明专利
摘要
一种融合知识蒸馏与预训练语言模型的非结构化文本标注方法,方法为:录入原始非结构化文本数据;建立支持用户定义知识图谱的知识体系,使用图形化界面进行人工数据标注;将人工标注的结果进行可视化预览,并支持二次更正、支持导出为BIO标签的数据标注格式;按照字符对数据进行分割,避免分词错误,并且替换标签不可用字符:使用知识蒸馏的方法,将BERT‑large作为老师模型,构建参数量更小的学生模型DistilBERT;使用蒸馏后的学生模型DistilBERT,在标注数据上微调模型;微调后的模型支持提供自动化标注服务、支持对接到标注平台、支持自动化标注,同时支持人工可以二次更正;通过反复自动标注和人工标注,迭代微调更新学生模型DistilBERT的参数,提高模型准确率。
技术关键词
文本标注方法 训练语言模型 蒸馏 非结构化文本 学生 标注平台 光学字符识别方法 实体 标签 数据 图谱 老师 分词 定义 神经网络结构 模型训练方法 框架 编程工具