基于词元概率统计的大模型生成中文文本检测方法及系统

申请号：CN202510916116

申请日期：2025-07-03

公开号：CN120822515A

公开日期：2025-10-21

类型：发明专利

摘要

本发明公开了一种基于词元概率统计的大模型生成中文文本检测方法及系统。本发明首先调用代理大语言模型对目标文本进行推理，获取其每个token的对数概率，然后基于目标文本的token对数概率序列，分别计算全局统计量与局部统计量；最后将全局统计量与局部统计量相除作为目标文本的检测得分，将检测得分与给定的阈值相比较进而做出决策。本发明将目标文本的token对数概率序列的全局与局部统计量相结合，实现了低成本、高性能的大语言模型生成文本检测。相比于现有的仅利用了全局统计量的检测方法，本文在跨模型、跨领域等复杂场景下均实现了更高的检测精度。

技术关键词

中文文本序列算术平均值调用代理模型计算机电子设备 Softmax函数滑动窗口存储计算机程序大语言模型计算机程序产品分词处理器存储器高性能低成本模块指令决策场景