一种基于阅读理解的违规数据检测方法

申请号：CN202411946843

申请日期：2024-12-26

公开号：CN119884368B

公开日期：2025-09-23

类型：发明专利

摘要

本发明公开了一种基于阅读理解的违规数据检测方法，涉及自然语言处理和人工智能技术领域。包括：获取包含仇恨言论的多模态数据，多模态数据包括语音数据和文本数据；利用语音识别系统将语音数据转换为文本数据，得到文本内容；利用大语言模型的思维链提示生成文本内容的逐步推理解释，根据文本内容的逐步推理解释得到初步预测类别标签；基于得到的文本内容的逐步推理解释，再次利用大语言模型生成最终预测类别标签；根据最终预测类别标签生成训练数据；利用训练数据对违规文本分类模型进行训练，得到训练后的检测结果。本发明显著提高了对隐晦、复杂违规言论的检测准确性。

技术关键词

数据检测方法大语言模型生成文本内容预测类别文本分类模型语音识别系统自然语言模型生成训练数据标签社交媒体平台多模态爬虫技术人工智能技术框架对象优化器

系统为您推荐了相关专利信息

一种对大语言模型的文本嵌入模块进行训练的方法和装置

文本验证平台样本数据模块

一种基于NL2SQL的大语言模型构建方法以及装置

语言模型构建方法数据语句文本模型构建装置

配置数据检测方法、配置数据检测电路、芯片及电子设备

数据检测方法数据检测电路错误纠正码数据运行系统控制模块

基于记忆循环网络增强的大语言模型人机交互方法及系统

记忆人机交互方法大语言模型多维对象精度

一种违规文本鉴定方法、装置、设备及存储介质

关键词 AC自动机匹配模块文本分类模型词语