摘要
针对现有机器生成文本溯源技术中单一特征难以准确追溯机器生成文本来源的问题,本发明提出了一种基于特征融合的机器生成文本溯源方法和系统,构建了一种新的机器生成文本溯源模型,通过结合文本的统计特征和语义特征,为模型提供了更丰富的特征表示。首先利用词嵌入技术将输入文本转换为语义向量,同时使用GPT‑2模型计算文本的预测概率、累积概率和信息熵,作为文本的统计向量。接着,通过GRU、Transformer编码器进一步提取特征,并通过线性层对其进行线性变换,以获取文本的语义特征和统计特征,再通过特征融合策略对其进行整合。最后,融合后的特征向量经分类器分析后,输出文本具体来源。