基于特征融合的机器生成文本溯源方法及系统

申请号：CN202410854416

申请日期：2024-06-28

公开号：CN119577129A

公开日期：2025-03-07

类型：发明专利

摘要

针对现有机器生成文本溯源技术中单一特征难以准确追溯机器生成文本来源的问题，本发明提出了一种基于特征融合的机器生成文本溯源方法和系统，构建了一种新的机器生成文本溯源模型，通过结合文本的统计特征和语义特征，为模型提供了更丰富的特征表示。首先利用词嵌入技术将输入文本转换为语义向量，同时使用GPT‑2模型计算文本的预测概率、累积概率和信息熵，作为文本的统计向量。接着，通过GRU、Transformer编码器进一步提取特征，并通过线性层对其进行线性变换，以获取文本的语义特征和统计特征，再通过特征融合策略对其进行整合。最后，融合后的特征向量经分类器分析后，输出文本具体来源。

技术关键词

文本溯源方法语义向量词嵌入技术信息熵溯源数据 BERT模型统计特征编码器 Softmax函数注意力语义特征非线性矩阵高维向量空间文本检测模型元素网络时间序列特征