一种基于弱监督学习的文本数据标注方法及系统

申请号：CN202510168698

申请日期：2025-02-17

公开号：CN119669477B

公开日期：2025-05-13

类型：发明专利

摘要

本发明属于自然语言处理技术领域，公开了一种基于弱监督学习的文本数据标注方法及系统。所述的方法包括如下步骤：使用弱监督学习算法，对若干历史文本数据进行伪标签生成，得到设置有真实标签的若干源域数据和设置有伪标签的若干目标域数据；使用深度学习与对抗训练算法，构建文本数据标注模型，并使用持续学习算法，对文本数据标注模型进行调整；使用调整的文本数据标注模型，对实时文本数据进行标注，得到标注后实时文本数据，并使用持续学习算法，对调整的文本数据标注模型进行更新。本发明解决了现有技术存在的人工标注成本高、标注质量参差不齐以及对标签数据的依赖性高的问题。

技术关键词

文本弱监督学习数据标注方法标签特征提取模型特征提取模块学习算法 Elman算法 cGAN算法序列特征训练算法数据标注系统 DBN算法 LSTM算法分类器自然语言