摘要
本发明涉及电力通信调度数据领域,本发明提出了一种基于困惑度筛选的电力通信调度数据意图识别方法,包括以下步骤:收集整年电力通信调度系统咨询相关数据,所述数据涵盖但不限于传输业务、PCM业务、VPN业务等典型电力通信调度数据;利用KenLM算法构建n‑gram语言模型计算样本困惑度Perplexity,PPL,并通过TRIE结构高效检索语言概率值,筛选中、高质量语料以提升语义一致性和表达规范性;结合语义规则过滤和内容去重,提炼出结构更规范、信息无冗余的高质量数据。随后,基于多头自注意力机制构建Transformer模型,提取上下文语义特征,经过多层编码器获得最终特征矩阵;最后通过全连接层与Softmax分类层输出意图预测概率分布,并依据阈值确定最终调度意图标签。