一种基于中文特性和语义一致性的数据增强方法及系统

申请号：CN202510555392

申请日期：2025-04-29

公开号：CN120449888A

公开日期：2025-08-08

类型：发明专利

摘要

本发明提供了一种基于中文特性和语义一致性的数据增强方法及系统，所述方法包括：获取原始数据，对原始数据进行基于语义一致的同义词替换和随机插入以及基于中文特性的噪声增强，包括：基于单词粒度的噪声增强和基于词元粒度的噪声增强；生成增强后的数据并输出。该方法不仅深入考量了中文语言的固有特性，还着重确保了数据在语义层面的一致性，旨在促进模型在训练阶段对全局语义连贯性的高效学习。这些算法被用于处理来自现实世界中跨词汇和句子维度的数据，更有效地增强和平衡现有的数据集，增强了数据在模型训练过程中的实用性，从而进一步推动了模型性能的优化与提升。

技术关键词

实体识别模型同义词 LSTM模型随机方法双向长短期记忆网络文本 BERT模型数据输出模块 CRF模型通信接口词典条件随机场替换算法语义层面生成噪声列表