摘要
本发明公开了融合标签混淆和拼音信息的中文文本分类方法,本发明中的方法包括三个主要部分:对样本标签进行标签混淆的操作使其生成标签模拟分布用以替代传统的one‑hot表示、在字符表征中融入样本的拼音信息以及构造对比学习来处理噪音问题;通过计算标签和样本的相似度值从而获得标签混淆分布,学习到的模拟标签分布有助于模型更好地表示具有不同标签的实例;通过对样本拼音进行嵌入表征汉字的读音,并将其融入样本的字符嵌入中,解决了汉语中高度流行的多音字现象;然后构造合适的正负样本数据进行对比学习,在拉远正负样本之间距离的过程中,学到真正划分类别的特征,同时,降低噪音特征的干扰,提升模型的鲁棒性。