摘要
本发明公开了一种基于阅读理解的违规数据检测方法,涉及自然语言处理和人工智能技术领域。包括:获取包含仇恨言论的多模态数据,多模态数据包括语音数据和文本数据;利用语音识别系统将语音数据转换为文本数据,得到文本内容;利用大语言模型的思维链提示生成文本内容的逐步推理解释,根据文本内容的逐步推理解释得到初步预测类别标签;基于得到的文本内容的逐步推理解释,再次利用大语言模型生成最终预测类别标签;根据最终预测类别标签生成训练数据;利用训练数据对违规文本分类模型进行训练,得到训练后的检测结果。本发明显著提高了对隐晦、复杂违规言论的检测准确性。