样本数据的筛选方法、模型训练方法、装置、服务器及存储介质
申请号:CN202411403033
申请日期:2024-09-30
公开号:CN119397016B
公开日期:2025-10-03
类型:发明专利
摘要
本申请涉及人工智能领域,公开了一种样本数据的筛选方法、模型训练方法、装置、服务器以及存储介质,其中,该筛选方法通过构建语料数据库,获取待预测的第二文本数据,并利用初始语义识别模型对第二文本数据进行分类,得到第二文本数据对应的第二文本向量、第二文本数据对应的第二文本意图及第二文本意图对应的第二概率分布;根据第二文本向量从语料数据库中确定与第二文本数据匹配的多个第一文本数据作为目标文本数据,并获取目标文本数据对应的第一文本意图的第一概率分布;分别计算每个第二文本数据对应的第二概率分布和各个目标文本数据的第一概率分布的概率分布差异,并根据概率分布差异从第二文本数据中筛选出目标样本数据。
技术关键词
文本
语义
识别模型训练方法
意图
样本
筛选方法
分支
模型训练模块
可读存储介质
存储计算机程序
服务器
队列
处理器
数据更新
匹配模块
网络结构