一种基于大语言模型的语义聚焦的试题查重方法

申请号：CN202511157810

申请日期：2025-08-19

公开号：CN121031565A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种基于大语言模型的语义聚焦的试题查重方法，所述方法基于语料库构建与文本规范化，完成题目语料库的搭建及元数据标注；采用语义向量化表征策略，将语料库中的题目映射为稠密向量，并构建离线语义向量库；提出语义向量召回→SimHash去噪→Reranker模型重排筛选机制，解决传统字面比对无法识别同义改写的问题；提出多级筛选‑大模型深判‑在线阈值自适应协作架构，通过实时反馈持续迭代，实现语义级精准查重；通过启动即复核机制，根据人工复核库中的数据动态调整向量召回阈值和大模型深判阈值，以最大化查重的准确性和效率。本发明解决了同义改写漏网、短文本表征失效、静态阈值误报/漏报的问题。

技术关键词

大语言模型查重方法语义向量索引局部敏感哈希文本规范化多阶段嵌入方法离线汉明距离机制教育类哈希算法指纹数据批量格式策略