基于伪标签的意图识别模型训练方法、意图识别方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于伪标签的意图识别模型训练方法、意图识别方法和装置
申请号:CN202510509485
申请日期:2025-04-22
公开号:CN120523955A
公开日期:2025-08-22
类型:发明专利
摘要
本发明提供一种基于伪标签的意图识别模型训练方法、意图识别方法和装置,方法包括:将样本文本输入到语言模型中提取特征向量;基于特征向量对样本文本聚类,将聚类结果作为伪标签,计算有标注样本文本的真实标签与伪标签的归一化互信息;确定每个样本对应的置信度分数;置信度分数用于量化伪标签中的噪声,筛选高置信度样本并将对应的伪标签作为自监督信号,迭代优化语言模型直到收敛;迭代后重新初始化聚类,更新聚类结果、归一化互信息和迭代次数;在迭代次数达到上限或归一化互信息增幅小于阈值时,终止训练并将语言模型确定为意图识别模型;能够解决噪声伪标签不断传播积累,导致模型识别新意图的能力下降的问题;提高模型识别新意图的能力。
技术关键词
意图识别模型 样本 置信度阈值 文本 标签 意图识别方法 意图类别 优化器 动态 聚类 语义向量 预训练语言模型 语义特征 K近邻算法 参数 指令 非线性 电子设备 噪声