摘要
本发明提供了一种基于中文特性和语义一致性的数据增强方法及系统,所述方法包括:获取原始数据,对原始数据进行基于语义一致的同义词替换和随机插入以及基于中文特性的噪声增强,包括:基于单词粒度的噪声增强和基于词元粒度的噪声增强;生成增强后的数据并输出。该方法不仅深入考量了中文语言的固有特性,还着重确保了数据在语义层面的一致性,旨在促进模型在训练阶段对全局语义连贯性的高效学习。这些算法被用于处理来自现实世界中跨词汇和句子维度的数据,更有效地增强和平衡现有的数据集,增强了数据在模型训练过程中的实用性,从而进一步推动了模型性能的优化与提升。