摘要
本发明公开了一种基于帧间相似度的伪造语音片段定位方法,涉及人工智能安全领域,包括:构建上下文感知特征提取网络,生成语音信号的高维特征表示;设计嵌入相似度模块,通过计算帧间余弦相似度分离真实帧与伪造帧,定义由真实帧相似性损失、伪造帧相似性损失和真实‑伪造差异损失组成的相似度损失;引入时间卷积操作,结合动态注意力机制生成局部权重掩码;通过双层卷积神经网络与全连接层进行帧级二分类,定义分类损失;基于相似度损失和分类损失设计联合优化目标函数,通过最小化联合优化目标函数进行模型训练,利用训练好的模型确定伪造语音片段的位置。本发明可以实现对伪造语音片段的高精度细粒度定位,提升复杂噪声环境下的检测稳定性。