从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

6103点击 2026-06-26 09:49

过去十年，推荐系统最核心的动作可以概括成一个字：找。

用户来了，系统理解用户兴趣，再从已有内容池里检索、排序、分发最合适的视频。这个「retrieve-and-rank」范式支撑了短视频、信息流和广告推荐的高速增长，也让深度学习推荐模型成为工业界的基础设施。

但它有一个天然上限：如果用户真正想看的那条视频，内容池里根本不存在呢？

快手最新论文提出的 Recommendation-as-Generation（RaG），正是在回答这个问题。

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

论文标题：Recommendation as Generation: Unifying Personalized Video Generation and Recommendation at Industrial Scale
项目页： https://recommendation-as-generation.github.io/

论文地址：https://arxiv.org/abs/2606.25496
关键词：Recommendation-as-Generation, D-SIDs, Video Generation Agents, SCRL, Personalized Video Generation

它把推荐系统从「在已有视频里找答案」，推进到「根据用户兴趣生成答案」：先预测用户潜在兴趣，再直接生成与兴趣对齐的个性化视频。

这不是一个概念 demo。论文中的 RaG 已在快手大规模广告系统中部署，服务超过 4 亿日活用户。在线 A/B 实验显示，完整 RaG 系统相较强 GRM 基线带来 +1.870% 广告收入提升。

更关键的是，这一增益来自一个新的闭环：推荐模型不只是选择已有内容，而是把用户兴趣转化为视频生成目标，再用真实反馈持续校准生成过程。

下面是一个真实示例：

该用户为热爱健身的年轻男性，对美女、健身及低脂饮食内容表现出明显偏好。

基于此人群画像，系统为其量身定制了「美女代言蛋白粉」的场景化广告。广告以吸睛的美女形象切入，紧扣其「运动后控糖低脂」、「高效增肌」与「即时便捷」的真实痛点，实现精准种草，完美满足其个性化消费需求。

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

历史交互的兴趣视频

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

RaG 个性化视频广告

从「找视频」到「产视频」

传统推荐系统的链路是：用户画像与行为 → 兴趣建模 → 检索已有视频 → 排序分发。

RaG 将其改写为：用户画像与行为 → 兴趣语义 ID → 视频生产指令 → 个性化视频生成 → 用户反馈闭环。

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

论文将这一过程抽象为：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

这一步的本质变化是：推荐模型不再只预测「某个 item 是否适合用户」，而是预测「用户真正想看的内容应该具备什么语义和创意形态」。

也就是说，推荐系统开始从内容分发器，变成内容生产链路的上游大脑。

两个核心挑战：

语义怎么打通，生成怎么落地

把推荐和视频生成接起来，并不是简单地把一个推荐模型和一个视频生成模型串联起来。

论文指出，RaG 要解决两个关键问题。

第一，兴趣推荐和视频生成如何统一到一个框架中建模

推荐模型处理的是用户画像、历史行为、item 特征等离散、异构信号；视频生成模型处理的是文本、图像、音频、运动等连续多模态信号。两者目标也不同：推荐要预测兴趣，生成要保证画面、叙事和音画质量。

如果没有一个统一语义接口，推荐模型预测出的兴趣很难稳定地驱动视频生成。

第二，个性化视频如何实现大规模工业化生产

当前高质量视频生成通常依赖复杂 prompt、多轮人工调试和后处理工具。面向数亿用户的广告推荐场景，系统不可能为每次请求现场生成一条视频。

所以 RaG 的目标不是做一个单点生成模型，而是构建一套端到端、可缓存、可反馈优化的工业级闭环系统。

RaG 的整体架构：

一个语义接口，三段生成链路，一个反馈闭环

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

RaG 由五个核心模块构成：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

下面逐一拆解。

D-SIDs：

给视频一张「内容 + 创意」双维身份证

视频不是单一语义。

同一个商品，可以拍成温柔的生活方式短片，也可以拍成强促销风格广告；同一个「母婴护理」主题，可以是家庭温情叙事，也可以是功效对比测评。

如果把这些信息压进一个混合 ID，推荐模型会同时被内容语义和创意风格干扰，后续生成也难以控制。

因此 RaG 提出 Disentangled Semantic IDs（D-SIDs），将视频表示拆成两部分：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

Content SIDs：视频讲什么，例如商品、人物、动作、物体、主题；
Creative SIDs：视频怎么讲，例如风格、节奏、氛围、镜头表达。

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

具体实现上，RaG 基于 Qwen2.5-VL-7B-Instruct 构建多模态表征，并使用快手内部 dense captioning model 生成 content /creative 两类描述，再分别进行 RQ-KMeans 离散量化。

每类语义采用 2 层 codebook，每层 8192 个 code，总共4层。

量化过程可以写成：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

最终将内容 code 和创意 code 拼接，得到完整 D-SIDs：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

实验结果显示，D-SIDs 显著提升了语义检索和离散化质量：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

尤其是碰撞率从 QARM 的 18.24% 降到 2.62%。这意味着语义空间更干净，推荐模型更容易学，生成系统也更容易控制。

GRM：

推荐模型预测的不再是视频 ID，而是兴趣语义

有了 D-SIDs，推荐模型的目标也随之变化。

传统推荐模型预测的是某个已有视频是否适合用户；RaG 中的 Generative Recommendation Model（GRM）则根据用户画像和历史行为，自回归预测用户未来兴趣对应的 D-SIDs：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

这一步非常关键：GRM 输出的不是某条视频，而是一组可被生成系统消费的「兴趣语义 token」。这些 token 既可以用于检索已有内容，也可以进一步驱动个性化视频生成。

换句话说，推荐结果从「内容池里的候选 item」升级成了「可生成的内容意图」。

Instruction Model：

把兴趣翻译成视频生产说明书

D-SIDs 是离散语义，不是视频生成系统可以直接执行的脚本。

真正的视频生产需要更细的指令：每个镜头拍什么、如何转场、口播说什么、音乐如何匹配、字幕和 CTA 什么时候出现。

因此 RaG 设计了 Instruction Model（IM），将 D-SIDs 和广告 metadata 转换为 shot-level 视频生产指令：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

训练上，论文使用 Gemini2.5 Pro 为视频生成 shot-level 指令监督，再用 Qwen3-8B 进行训练。训练分为三阶段：

冻结 LLM，只训练 projector，让 D-SIDs 嵌入对齐语言空间；

联合微调 projector 和 LLM，提高语义保真和指令可控性；

进一步接入奖励优化，与后续 SCRL 形成闭环。

在指令质量评估中，模型规模和训练数据都会带来提升，考虑线上成本，论文最终采用 8B + 1M samples 作为默认配置，在效果和效率之间取得平衡。

VGAs：

把视频生成变成一条多 Agent 生产线

工业级广告视频不是一段画面生成就结束了。

它至少包括视觉画面、口播、BGM、字幕、转场、贴纸、卖点强调和 CTA。不同模块之间还有明显依赖关系：画面规划决定叙事节奏，音频要跟画面节奏对齐，特效和字幕又依赖前面的视觉与音频结果。

所以 RaG 没有采用单体视频生成器，而是提出 Video Generation Agents（VGAs），将生产过程拆成三个子 Agent：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

VGAs 可以表示为一个序列决策过程：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

每一步，Agent 根据当前生成状态和指令，选择下一步动作。动作可以是调用 text-to-video、image-to-video、TTS、BGM、字幕或特效工具。最终视频由统一生成算子组合而成：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

论文中特别强调了 VGAs 的两个能力：

reasoning：通过分层规划实现跨模态一致性；

reflection：观察中间结果后进行有限轮次的自我修正和重规划。

为了控制延迟，线上将反思轮次限制在两轮以内。

实验显示，VGAs 明显优于传统固定流程 baseline：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

这说明，相比「按固定模板粗剪 + 精剪」的流水线，多 Agent 结构更适合处理高度个性化、跨模态强耦合的视频生成任务。

SCRL：

把用户反馈、兴趣对齐和视频质量放进一个闭环

推荐系统最终看用户反馈，视频生成系统又必须保证质量。如果只优化点击和转化，可能导致低质但刺激的内容；如果只优化画质，又可能偏离真实用户兴趣。

RaG 提出 Synergistic Cross-Domain Reward Learning（SCRL），将三类信号统一进一个约束优化框架：

User Feedback Reward：点击、点赞、收藏、购买等真实反馈，以及排序模型给出的 dense engagement estimates；
Interest Alignment Reward：生成指令、生成视频与 GRM 预测 D-SIDs 的一致性；
Video Quality Reward：视觉质量、音画一致性、字幕特效和 CTA 对齐。

论文没有简单地把三类 reward 加权求和，而是把用户反馈作为主目标，将兴趣对齐和视频质量作为约束：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

直观理解就是：

用户反馈负责指方向；兴趣对齐和视频质量负责守底线。

当生成结果在兴趣对齐或质量上低于阈值时，系统会受到惩罚。

为了处理不同 reward 的尺度差异，SCRL 使用 GDPO 做 group-decoupled normalization：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

同时，论文引入 PID-controlled Lagrangian multipliers 动态更新约束权重，避免多目标 RL 中常见的震荡和手工调参问题。

消融实验显示，每类 reward 都有明确贡献：

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

这说明 SCRL 不是简单地「让视频更好看」，而是让视频质量、用户兴趣和商业反馈在同一个优化闭环中协同演化。

工业部署：

实时推荐，近线生成，缓存扩展供给

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

RaG 的工程难点在于：推荐系统要求毫秒级响应，而视频生成通常是秒级甚至分钟级。

论文采用了「在线兴趣建模 + 近线视频生成 + 延迟感知服务」的解耦架构。

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

GRM 在线预测用户兴趣 D-SIDs；IM 和 VGAs 在近线生成个性化视频，并持续扩展个性化视频缓存池。服务时，系统根据 SID 的缓存命中情况进行分层处理：

content-SIDs 和 creative-SIDs 都命中：直接返回已生成视频；
content-SIDs 命中但 creative-SIDs 缺失：先返回内容一致的视频，同时异步生成创意变体；
content-SIDs 未命中：先用最近邻 SID 对应视频兜底，并将未覆盖 SID 加入优先生成队列。

这套设计避免了「每次请求现场生成视频」的不现实成本，也让生成系统能随着用户需求不断补齐内容供给。

线上结果：

强 GRM 基线之上继续提升 1.870%

RaG 在快手广告系统中完成了大规模在线验证。

从「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

这个结果有两层含义。

第一，生成式推荐本身已经比传统 DLRM 强，GRM baseline 相比 DLRM 带来 +3.526% 收入提升。第二，在强 GRM 基线之上，D-SIDs 进一步带来更结构化的兴趣空间，而完整 RaG 通过 IM、VGAs 和 SCRL 将推荐语义真正转化为个性化视频供给，最终将相对 GRM 的提升推到 +1.870%。

这意味着，个性化视频生成不只是提升内容表达的 AIGC 能力，而是已经可以在工业广告系统中转化为真实商业增益。

论文通过一个广告场景案例，展示了用户兴趣如何转化为视频生产蓝图。

用户画像是 25-34 岁女性，兴趣集中在年轻妈妈生活方式、母婴护理、家庭用品和高性价比购物。RaG 的处理过程如下：