NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言
8008点击    2025-11-06 09:39

随着生成式 AI(如 Sora)的发展,合成视频几乎可以以假乱真,带来了深度伪造与虚假信息传播的风险。现有检测方法多依赖表层伪影或数据驱动学习,难以在高质量生成视频中保持较好的泛化能力。其根本原因在于,这些方法大都未能充分利用自然视频所遵循的物理规律,挖掘自然视频的更本质的特征。


真实世界的视觉现象受物理过程支配,而生成模型难以完美遵循这些规律。因此,基于物理时空一致性的生成视频检测范式更具普适性和可解释性。然而,高维时空物理规律通常由复杂偏微分方程刻画,直接建模这些规律极具挑战性,如何构建有效的物理驱动的统计量,仍是核心难题。


本文介绍发表于 NeurIPS 2025 的文章《Physics-Driven Spatiotemporal Modeling for AI-Generated Video Detection》。


文章从第一性原理出发,提出了归一化时空梯度(NSG)统计量,通过概率流守恒原理量化视频空间概率梯度与时间密度变化的比值,揭示生成视频中的物理不一致性;理论分析了生成视频与真实视频的 NSG 分布差异,证明了生成视频与真实视频在该统计量的 MMD 距离大于真实视频之间的距离;基于该统计量提出了通用的视频检测方法 NSG-VD,该方法对自然视频的分布进行建模,不依赖特定生成模型,对未知生成范式(如 Sora)和迁移场景具有较强的检测效果。


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


  • 论文链接: https://arxiv.org/abs/2510.08073v1
  • 代码链接: https://github.com/ZSHsh98/NSG-VD


实验表明 NSG-VD 方法在 Recall 和 F1-score 指标分别超越已有最新方法 16.00% 和 10.75%。


研究背景:

AI 视频检测的困境


尽管生成式 AI 技术在视频合成领域取得了突破性进展,但检测领域的研究却面临着新的瓶颈。与图像不同,视频同时包含空间结构与时间动态两类复杂依赖关系,其真实演化过程往往受到多种物理约束(如运动连续性、能量守恒等)共同支配。要准确识别生成视频,检测模型不仅需要理解空间纹理的统计特征,还必须捕捉时间维度上连贯且可解释的变化模式。


然而,现有大多数检测方法仍主要聚焦于表层信号的不一致性,如局部光流异常或视觉纹理伪影。这些特征在早期生成模型中较为明显,但在如今高质量的视频生成中已被显著削弱。另一方面,依赖大规模标注数据的深度学习方法虽然在特定数据集上取得了优异表现,却难以泛化至未见过的生成范式,特别是在新兴模型(如 Sora)出现后,检测性能会急剧退化。


因此,当前 AI 视频检测的核心困境在于:如何超越表面特征层面的统计差异,从自然视频的物理演化规律出发,构建一种具有普适性性且对未知生成模型稳健的检测框架。


基于这一思考,作者提出一个关键问题:


如何从视频本身的物理层面刻画自然视频的时空演化规律,从而揭示生成视频中极其细微且潜在的物理异常?


事实上,真实世界中物体的运动遵循着明确的物理约束,例如一辆车从左向右行驶时,其像素的亮度与位置变化应当是连续且符合运动规律的。换言之,我们可将视频的演化过程视为一种「概率流体」的时空流 —— 真实视频中的动态如同稳定、连续的流,而许多 AI 生成的视频则可能在流上表现出断裂、抖动或其他违反物理一致性的异常。


因此,作者将视频的演化过程形式化为一种概率流的时空流动,并通过归一化时空梯度(NSG)统计量来量化这种流的物理一致性。


物理一致性建模:

从概率流守恒到时空梯度


首先将视频帧序列建模为高维空间中的概率分布演化过程。设 x 表示视频帧在空间中的像素表示,t 表示时间,p (x,t) 为视频在时刻 t 的概率密度函数。类比于流体力学中的质量流动 [1],定义概率流密度(probability flow density):


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


其中 v (x,t) 表示概率流速度场,描述了概率密度在时空中的演化方向与速率。


概率质量守恒要求系统满足连续性方程(continuity equation)[2],这是物理学中描述守恒量传输的基本方程:


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


将 J (x,t) 代入上式,并对 logp (x,t) 应用链式法则,整理可得:


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


该式揭示了速度场 v (x,t) 如何同时编码概率分布的时间演化与空间梯度。


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


归一化时空梯度(NSG)统计量


式(5)表明,真实视频会保持速度场与空间概率梯度对时间密度变化比值的乘积恒定。基于此,定义归一化时空梯度(NSG)统计量:


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


从物理直觉上看,真实视频的 NSG 呈现平滑连续的「流线」结构,反映出自然运动的连贯性;而 AI 生成视频在此过程中出现断层、抖动等非物理现象,即违反了连续性方程。具体而言:


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


两者结合后,NSG 为不同视频场景提供了统一的一致性度量特征,可稳健揭示生成视频中的物理异常。


NSG 的计算近似


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


  • 空间梯度估计:用扩散模型建模梯度特征


现代扩散模型(或更广义的 score-based 模型)本质上学习的是数据分布的 score 函数 [5]:


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


即概率密度对输入的梯度。这意味着,扩散模型实际上隐式捕获了真实数据在高维空间中的概率流结构。因此,可以用一个预训练的 score 网络 s_θ,来近似计算视频帧的空间概率梯度:


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


式(8)实现了从生成模型到判别器的转换,作者不再利用扩散模型生成视频,而是让它「感知」视频帧是否符合自然分布的空间结构。


  • 时间导数估计:基于亮度不变假设


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


  • 总的估计表达式


将上式与 score 估计结合,可得到 NSG 的可计算近似式:


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


该公式仅需一次 diffusion 模型前向计算(用于获取 s_θ(x_t))与帧间差分,即可在无需显式光流估计或复杂运动分解的情况下,求得视频的 NSG 分布。


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


NSG-VD:基于物理一致性的时空视频检测框架


在获得 NSG 特征后,作者提出检测算法 NSG-VD


核心思想:通过计算待测视频与真实视频参考集在 NSG 特征空间中的分布差异,利用最大均值差异(MMD)作为检测指标,从而揭示生成视频在物理一致性上的异常特征。


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


检测流程


首先,构建一组真实视频参考集:


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


并为每个视频 x 提取其在 T 帧上的 NSG 特征序列:


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


随后,定义检测函数:


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


其中 I (⋅) 为指示函数,τ 为判定阈值。根据函数输出进行视频真伪分类:


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


为增强判别能力,作者采用可学习的深度核 [9] 并在训练集数据上对其参数进行训练。


理论保障


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


该定理表明,真实视频和生成视频的 NSG 特征距离上界与分布偏移程度 μ 有关。分布偏移越小,两者特征距离上界越小;偏移越大,分离越明显。这也意味着真实数据间的 NSG 特征的 MMD 比真实与生成数据间的更小,据此可用 NSG 特征区分真实和生成视频。


实验验证:

跨生成模型与数据场景的性能分析


作者在大型基准 GenVideo 上进行了全面评估,包含 10 个不同的生成模型,涵盖开源和闭源系统。实验表明,NSG-VD 在多个标准评测中显著优于现有基线方法:


标准评测设置下的卓越性能


NSG-VD 在 Kinetics-400(真实视频) 与 Pika(生成视频) 的混合数据训练后,展现出出色的泛化能力。在十类 AI 生成视频上的平均检测性能达到 Recall 88.02%、F1 90.87%,已全面超越此前的最佳方法 DeMamba。特别是在 Sora 等闭源生成模型检测上,NSG-VD 取得了 78.57% 的 Recall,相比 DeMamba 的 48.21% 提升超过 30 个百分点,展现出显著的性能优势。


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


数据不平衡场景下的鲁棒性


在实际应用中,获取大规模 AI 生成视频 的训练数据往往具有较高成本与难度。为评估模型在更贴近真实场景下的表现,作者在训练集仅包含 1,000 条 SEINE 的生成数据上进行了实验。


结果表明,即使在仅使用 1,000 条 AI 生成视频 进行训练的条件下,NSG-VD 仍展现出显著的稳健性与泛化能力:其在 Sora 上的召回率(Recall)高达 82.14%,远超 DeMamba (33.93%) 与 NPR (10.71%) 等基线模型。这充分验证了 NSG-VD 的高数据效率,其性能提升并非依赖于大规模训练数据,而源于基于物理一致性的第一性原理建模的有效性。


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


消融研究:验证物理建模的有效性


为进一步验证 NSG 各组成模块的作用,作者进行了系统性的消融实验。


实验结果表明,当仅使用空间概率梯度时,模型的 Recall 为 87.99%;仅使用时间密度变化时,Recall 降至 60.35%。将两者进行物理一致性融合后,NSG-VD 的 Recall 提升至 88.02%,F1 值进一步达到 90.87%。这一结果充分说明,基于物理公式的时空联合建模能够有效捕捉视频生成过程中的细微差异,不仅验证了该建模范式的必要性,也凸显了其显著的性能优势。


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


决策阈值鲁棒性分析


在实际部署中,方法的超参数敏感性至关重要。对此,作者分析了决策阈值 τ 的影响:


结果表明,在 τ∈[0.7,1.1] 的阈值范围内,NSG-VD 的各项指标(Recall、Accuracy、F1)稳定性,证实了 NSG 特征对真伪视频的强大判别能力。该方法的核心在于物理驱动的时空梯度建模,而非依赖生成器特定伪影,因而能够稳健地检测来源多样的生成内容。


NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言


总结与展望


本文提出了基于物理守恒的时空建模视频检测框架 NSG-VD,通过归一化时空梯度(NSG)统计量量化视频在空间和时间维度上的物理一致性,实现对 AI 生成视频的通用检测。实验表明,NSG-VD 在多种生成模型、数据不平衡场景及迁移测试中均表现出卓越的泛化能力和稳健性,显著优于现有方法。


NSG-VD 的核心创新在于将物理一致性约束引入检测任务,通过 NSG 特征捕捉生成视频中潜在的物理规律违例。这种物理驱动范式无需依赖特定生成模式的数据,在面对多样化生成内容时展现出强鲁棒性,即便在数据不平衡场景下也能保持稳定性能。


在当前「真假难辨」的生成时代,NSG-VD 引领我们从「图像的真实」走向「物理的真实」—— 不关注视频有多逼真,而关注其是否遵守物理规律。尽管该方法仍依赖一定的物理假设并存在计算开销,未来工作将着力于开发更精细的物理模型、优化轻量化计算方案,并探索实时检测应用场景的可行性。


参考文献

[1] Hodge, W. B., S. V. Migirditch, and William C. Kerr. "Electron spin and probability current density in quantum mechanics." American Journal of Physics 82.7 (2014): 681-690. 

[2] Batchelor, George Keith. An introduction to fluid dynamics. Cambridge university press, 2000.

[3] Panton, Ronald L. Incompressible flow. John Wiley & Sons, 2024.

[4] Böhm, Arno. Quantum mechanics: foundations and applications. Springer Science & Business Media, 2013.

[5] Song, Yang, and Stefano Ermon. "Generative modeling by estimating gradients of the data distribution." Advances in neural information processing systems 32 (2019). 

[6] Horn, Berthold KP, and Brian G. Schunck. "Determining optical flow." Artificial intelligence 17.1-3 (1981): 185-203.

[7] Zhang, Shuhai, et al. "Detecting Machine-Generated Texts by Multi-Population Aware Optimization for Maximum Mean Discrepancy." The Twelfth International Conference on Learning Representations.

[8] Zhang, Shuhai, et al. "Detecting adversarial data by probing multiple perturbations using expected perturbation score." International conference on machine learning. PMLR, 2023.

[9] Liu, Feng, et al. "Learning deep kernels for non-parametric two-sample tests." International conference on machine learning. PMLR, 2020.


文章来自于“机器之心”,作者 “张书海”。

AITNT-国内领先的一站式人工智能新闻资讯网站