摘要
本发明属于自然语言处理技术领域,公开了一种基于弱监督学习的文本数据标注方法及系统。所述的方法包括如下步骤:使用弱监督学习算法,对若干历史文本数据进行伪标签生成,得到设置有真实标签的若干源域数据和设置有伪标签的若干目标域数据;使用深度学习与对抗训练算法,构建文本数据标注模型,并使用持续学习算法,对文本数据标注模型进行调整;使用调整的文本数据标注模型,对实时文本数据进行标注,得到标注后实时文本数据,并使用持续学习算法,对调整的文本数据标注模型进行更新。本发明解决了现有技术存在的人工标注成本高、标注质量参差不齐以及对标签数据的依赖性高的问题。