摘要
本发明涉及大数据处理技术,具体涉及一种一种数据智能标注方法和系统。一种数据智能标注方法包括如下过程:舆情数据预处理;历史样本库语义去重,更新样本库;基于历史工单库和大模型的智能辅助标注方法;模型更新和样本增量更新;本发明相对于现有技术的优点在于:采用多个维度的数据清洗方法,提升待标注数据质量,并且通过语义去重降低重复语义信息的干扰;挖掘历史工单中相似工单的潜在价值,构建了用于辅助标注的大模型提示词工程,提供可用的辅助标注提示词模板,打通提示词构建、辅助标注流程;采用PDCA思想,构建数据‑标注‑模型‑工单的闭环管理和PDCA机制螺旋式数据质量方法。