融合知识蒸馏与预训练语言模型的非结构化文本标注方法
申请号:CN202411697139
申请日期:2024-11-26
公开号:CN119204005A
公开日期:2024-12-27
类型:发明专利
摘要
一种融合知识蒸馏与预训练语言模型的非结构化文本标注方法,方法为:录入原始非结构化文本数据;建立支持用户定义知识图谱的知识体系,使用图形化界面进行人工数据标注;将人工标注的结果进行可视化预览,并支持二次更正、支持导出为BIO标签的数据标注格式;按照字符对数据进行分割,避免分词错误,并且替换标签不可用字符:使用知识蒸馏的方法,将BERT‑large作为老师模型,构建参数量更小的学生模型DistilBERT;使用蒸馏后的学生模型DistilBERT,在标注数据上微调模型;微调后的模型支持提供自动化标注服务、支持对接到标注平台、支持自动化标注,同时支持人工可以二次更正;通过反复自动标注和人工标注,迭代微调更新学生模型DistilBERT的参数,提高模型准确率。
技术关键词
文本标注方法
训练语言模型
蒸馏
非结构化文本
学生
标注平台
光学字符识别方法
实体
标签
数据
图谱
老师
分词
定义
神经网络结构
模型训练方法
框架
编程工具