摘要
本发明公开了一种基于大语言模型的语义聚焦的试题查重方法,所述方法基于语料库构建与文本规范化,完成题目语料库的搭建及元数据标注;采用语义向量化表征策略,将语料库中的题目映射为稠密向量,并构建离线语义向量库;提出语义向量召回→SimHash去噪→Reranker模型重排筛选机制,解决传统字面比对无法识别同义改写的问题;提出多级筛选‑大模型深判‑在线阈值自适应协作架构,通过实时反馈持续迭代,实现语义级精准查重;通过启动即复核机制,根据人工复核库中的数据动态调整向量召回阈值和大模型深判阈值,以最大化查重的准确性和效率。本发明解决了同义改写漏网、短文本表征失效、静态阈值误报/漏报的问题。