摘要
本发明涉及一种基于上下文扩展的人机混合文本检测方法,通过引入滑动窗口机制,将检测范围从单个目标句子扩展到该句子的上下文,并设计减弱上下文噪声干扰的方法,提高模型预测的准确性和泛化性。首先,采集窗口长度大小的文本作为训练集和验证集,提取语义特征和连贯性特征进行训练,得到训练好的检测模型。在测试集上应用滑动窗口机制对所有的窗口文本进行检测,设置较小的滑动窗口步长,则窗口文本中的句子会获得多个在不同上下文情况下的预测概率。采取基于置信度的检测机制,对多个预测概率进行置信度加权,获取该句子为AI文本的最终概率。