融合标签混淆和拼音信息的中文文本分类方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
融合标签混淆和拼音信息的中文文本分类方法
申请号:CN202410960183
申请日期:2024-07-17
公开号:CN119271814B
公开日期:2025-09-23
类型:发明专利
摘要
本发明公开了融合标签混淆和拼音信息的中文文本分类方法,本发明中的方法包括三个主要部分:对样本标签进行标签混淆的操作使其生成标签模拟分布用以替代传统的one‑hot表示、在字符表征中融入样本的拼音信息以及构造对比学习来处理噪音问题;通过计算标签和样本的相似度值从而获得标签混淆分布,学习到的模拟标签分布有助于模型更好地表示具有不同标签的实例;通过对样本拼音进行嵌入表征汉字的读音,并将其融入样本的字符嵌入中,解决了汉语中高度流行的多音字现象;然后构造合适的正负样本数据进行对比学习,在拉远正负样本之间距离的过程中,学到真正划分类别的特征,同时,降低噪音特征的干扰,提升模型的鲁棒性。
技术关键词
中文文本分类方法 融合标签 拼音 标签编码器 特征提取网络 样本 生成标签 联合损失函数 字符 深度神经网络 序列 标签类别 语义 超参数 分类器 鲁棒性 注意力
系统为您推荐了相关专利信息
情感识别方法 特征提取网络 情绪识别模型 特征提取模块 留一交叉验证
变量 Copula理论 Copula函数 代表 建模方法
跨模态 识别方法 融合特征 视频 视觉特征提取
破损检测方法 三维重建模型 深度图 生成对抗网络 融合点云数据
特征金字塔网络 特征融合网络 表达式 特征提取网络 特征提取模块