融合标签混淆和拼音信息的中文文本分类方法

申请号：CN202410960183

申请日期：2024-07-17

公开号：CN119271814B

公开日期：2025-09-23

类型：发明专利

摘要

本发明公开了融合标签混淆和拼音信息的中文文本分类方法，本发明中的方法包括三个主要部分：对样本标签进行标签混淆的操作使其生成标签模拟分布用以替代传统的one‑hot表示、在字符表征中融入样本的拼音信息以及构造对比学习来处理噪音问题；通过计算标签和样本的相似度值从而获得标签混淆分布，学习到的模拟标签分布有助于模型更好地表示具有不同标签的实例；通过对样本拼音进行嵌入表征汉字的读音，并将其融入样本的字符嵌入中，解决了汉语中高度流行的多音字现象；然后构造合适的正负样本数据进行对比学习，在拉远正负样本之间距离的过程中，学到真正划分类别的特征，同时，降低噪音特征的干扰，提升模型的鲁棒性。

技术关键词

中文文本分类方法融合标签拼音标签编码器特征提取网络样本生成标签联合损失函数字符深度神经网络序列标签类别语义超参数分类器鲁棒性注意力

系统为您推荐了相关专利信息

基于课程学习和多源域适应的跨个体EEG情感识别方法

情感识别方法特征提取网络情绪识别模型特征提取模块留一交叉验证

基于联合因果拓扑推理的因果增强软测量建模方法

变量 Copula理论 Copula函数代表建模方法

一种基于跨模态时空联合学习的多模态视频目标识别方法

跨模态识别方法融合特征视频视觉特征提取

一种电缆破损检测方法、设备、存储介质及产品

破损检测方法三维重建模型深度图生成对抗网络融合点云数据

基于FSOD-YOLOv8的战斗部破片小目标检测方法

特征金字塔网络特征融合网络表达式特征提取网络特征提取模块