攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱
7001点击    2025-12-25 09:41

你是否曾被AI视频生成的不连贯性所困扰?


在交互式创作中,仅仅切换一句提示词,故事就可能瞬间“崩塌”:一个角色暂时离开画面后再次出现,却“面目全非”,仿佛换了演员;或者,当你尝试引入一个新角色,AI却在后续的剧情中反复“召唤”这个新人,甚至将多个角色的特征混淆在一起。这种“金鱼记忆”式的顽疾,正是长视频生成在叙事上的一大致命伤。


现在,来自香港大学和快手可灵(Kling)团队的研究者们,联合推出了突破性方案——MemFlow


攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱


这是一种创新的流式自适应记忆机制,它赋予了AI强大的长时记忆与叙事连贯性,有望彻底解决上述难题。


攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱


流动的叙事 vs. 僵化的记忆


为了生成长视频,主流模型普遍采用“分块生成”的策略,即像放映幻灯片一样,一段一段地生成视频片段。


然而,如何让后生成的片段精准地“记住”前面的内容,成了一道巨大的技术鸿沟。以往的解决方案大致可分为几类,但都存在明显局限:


1. “只记开头”的策略:一些模型只保留第一个视频片段作为记忆,后续所有生成都参考它。这种方法在单一场景下尚可,一旦故事发展,需要引入新角色或切换到全新场景时,模型就会因为“记忆”中没有这些新信息而迷失,导致后续生成与此前内容在视觉和语义上均存在不连贯性。


2. “一刀切”的压缩策略:另一些方法试图将所有历史画面压缩成一个固定大小的“记忆包”。问题在于,不同的叙事需求要回忆的重点不同,“一刀切”的压缩往往会丢失关键细节,导致主体特征遗忘和视觉质量漂移。


3. “各自为政”的流程:还有一些流程试图将任务拆分,先让一个模型制作关键帧脚本,再让另一个模型根据脚本生成视频。这种方式在根据各段脚本分别生成时是各自独立的,拼接成的完整视频缺乏全局一致性。


这些僵化的、非自适应的记忆策略,无法应对交互式创作中流动的、不可预测的叙事需求,这正是导致交互式长视频生成一致性差的原因。


产生真正的长时记忆与叙事连贯性


MemFlow跳出依赖死板、固定记忆的传统模式,建立了一套动态、以语义作为桥梁的记忆系统,其优势主要体现在两方面:


1. 长时记忆:维持复杂场景下的视觉一致性


MemFlow获得了物体形象的长期记忆能力。这意味着,即使在长视频中存在场景切换、镜头变换,甚至是角色的插入或暂时消失等复杂情况,它也能记住每个主体的核心视觉特征。


2. 叙事连贯性:确保多主体故事线的清晰发展


学习导演思维,从全局角度理解剧情。在涉及多个主体的叙事中,MemFlow不会错误地重复引入已经存在的角色,更不会发生主体混淆的“脸盲”错误。当用户引入新主体并对其展开后续描述时,MemFlow能准确理解并延续叙事,让故事流畅地向前推进。


自适应的高效动态记忆


攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱


MemFlow的强大能力源于两大核心设计:


叙事自适应记忆(NAM):在生成新片段前,它会根据当前提示词,智能地从记忆库中检索出最相关的视觉记忆。这使其无论是延续旧角色还是描绘新互动,总能找到准确的视觉参考,从而维持一致性。这种设计使模型能够在有限的记忆容量下优先保留与当前叙事最相关的信息,从而在一致性和计算开销之间取得平衡。


稀疏记忆激活(SMA):为了兼顾效率,该机制会像聚光灯一样,只激活记忆中最关键的信息进行计算。这不仅避免了信息过载导致的混淆,还极大地提升了生成速度,在保证高质量叙事的同时实现了高效率。


从定量数据到定性对比的全面验证


为了评估MemFlow的实际效果,研究团队进行了一系列详尽的定性和定量实验,其结果清晰地展示了该模型在长视频生成领域的性能表现。


定量分析:关键指标的显著提升


攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱


在具有挑战性的“多提示词60秒长视频生成”任务中,MemFlow的数据表现尤为突出:


综合质量与美学评分表现出色


在VBench-Long的评估体系下,MemFlow在质量总分(85.02)和美学小分(61.07)上均取得了所有对比模型中的最高分,表明其生成的视频在视觉质量和美学呈现上具有良好水准。


长程语义一致性得到验证


通过逐段评估视频与文本匹配度的CLIP分数,可以观察到一个关键现象:在视频的后半段(如40-60秒),许多模型在语义一致性上的表现会因误差累积而出现明显下滑,但MemFlow的分数能够持续保持在较高水平。这反映了其动态记忆机制在维持长期叙事一致性方面的有效性,有助于缓解“越往后越乱”的问题。


一致性表现优异


在衡量核心能力的一致性评分上,MemFlow取得了96.60的高分,与所有对比模型相比处于领先位置。这直接说明,无论是角色、背景还是物体,MemFlow能在复杂的叙事变化中较好地保持视觉统一。


此外,在针对不同记忆机制的消融实验中,结果显示,MemFlow所采用的“叙事自适应记忆+稀疏激活(NAM+SMA)”策略,相较于“无记忆”或仅“记住第一段(Frame Sink)”的方案,在主体一致性背景一致性上均取得了提升,同时还实现了比采用完整记忆库更高的运行效率。


攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱


定性分析:视觉对比直观呈现模型优势


除了数据指标,直观的视觉对比更清晰地展示了模型的实际能力:


避免叙事混乱:在一个引入“一位穿着休闲毛衣的女士”的多镜头场景中,其他模型在提示词切换后,出现了生成人物外貌不一致或重复引入主体的问题。而MemFlow则成功地在多个镜头中维持了同一位女士的形象,未见明显漂移。


攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱


攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱


精准的角色追踪与再现:以上对比图有效地展示了MemFlow在处理角色互动时的稳定性。无论是沙滩上玩耍的孩子与小狗,还是家庭装饰圣诞树的场景,MemFlow都能确保故事中的核心角色在多段视频中保持一致。相比之下,基线模型LongLive在切换提示词后引入了多余或不一致的新角色,造成了叙事不连贯;其他模型则存在更加严重的质量漂移和主体遗忘。


攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱


动态记忆的必要性展示:在对记忆机制的视觉对比中,“无记忆”的版本在切换提示词时出现了明显的场景不一致;仅“记住第一段”的方案无法保持后续新引入人物的特征。只有MemFlow能够平滑地承接剧情并保证主体一致性,这直观地说明了其动态记忆机制的有效性和必要性。


攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱


效率评估


实验结果显示:在同样的多提示词长视频生成任务中,传统模型易出现主体漂移和角色混淆,而MemFlow则保持了更好的叙事连贯性和视觉一致性


更重要的是,MemFlow在单个NVIDIA H100上实现了FPS=18.7的实时推理速度,与无记忆的基线模型相比,性能损耗极小。它在一致性、美学评分和文本对齐度等多项关键指标上,均达到SOTA水平


攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱


开启长视频叙事新纪元


由香港大学与快手可灵团队共同打造的MemFlow,通过其独特的动态记忆机制,将AI视频生成技术从“片段拼接”推向了“故事编写”的新高度。


它标志着AI正从一个只能创作“概念视频”的画师,蜕变为一个能够驾驭复杂剧情、保持角色连贯的“叙事导演”。


一个真正能够理解、记忆并连贯讲述故事的AI视频创作时代,正在到来。


Arxiv:https://arxiv.org/pdf/2512.14699

Project Page:https://sihuiji.github.io/MemFlow.github.io/

Github:https://github.com/KlingTeam/MemFlow


文章来自于“量子位”,作者 “MemFlow团队”。

关键词: AI , 模型训练 , MemFlow , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0