前段时间,谷歌母公司 Alphabet 市值突破 3 万亿美元,成为第四家市值达到这一门槛的公司。
如果时间倒回到两年半以前,谷歌自己可能都没有想到这一结果。当时,ChatGPT 带来的冲击让外界开始质疑谷歌能否守住营收,尤其是广告营收。甚至还有人发出灵魂追问:谷歌会成为下一个诺基亚吗?
然而,事实的发展出乎许多人意料 —— 谷歌不仅稳住了广告基本盘,还通过将生成式 AI 融入搜索和广告投放,提升了用户意图理解和广告匹配效率,让广告价值进一步放大。
在国内,我们也看到了这种趋势。上个月,快手发布了 Q2 财报。财报显示,这一季度,快手线上营销服务收入 198 亿元,同比增长 12.8%。财报明确指出,大模型在投放出价、营销推荐方面的应用取得显著进展。在营销出价方面,快手优化了生成式出价算法,运用强化学习和长期价值策略,提升了广告转化效果。在营销推荐环节,快手利用大语言模型的内容理解和推理能力,采用生成式方法筛选广告,深入挖掘用户行为与广告转化的关联性,生成符合用户兴趣的广告内容,经过排序优化后显著提高点击率,推动营销服务收入实现两位数增长。这些信号表明,AI 技术正在从根本上驱动广告行业的收入增长。
不过,从技术上来看,这不是一蹴而就的,相关技术在过去的几年里经历了多次迭代。以 实时竞价(RTB)广告系统中的「大规模广告自动出价」问题为例,相关技术经历了经典控制、规划求解、强化学习、生成模型等数代演化,如今又迎来了「生成式强化学习」这一全新范式。
这一新范式由快手首次提出。其核心思想是「让出价模型能多维思考」,更充分地利用历史出价序列信息,从而做出更精准的决策。2025 年至今,这一范式已在快手广告系统全面落地,在保持广告主既定成本目标不劣化(成本达标不降) 的前提下,为平台实现了超过 3% 的广告收入提升。
那么,这一效果是怎么实现的?在快手发布的几篇论文中,我们可以找到答案。
在深入探讨快手的技术革新之前,我们有必要先对「广告自动出价」有一个基本的理解,尤其是其核心逻辑与挑战。
简单来说,广告自动出价,也被称为智能出价,是使用算法,根据用户广告产生点击或转化的可能性自动为这些广告设置出价。过程中无需手动更新,它会为用户完成所有繁重的工作,以相当于或优于现有效果目标的成本效益,推动实现更高的转化量或转化价值。
总结起来,相比于手动或人工出价,自动出价有三大优势:
实时出价系统示意图
然而,要实现理想的自动出价却非易事,而这就涉及到了广告出价的核心挑战:
针对这些挑战,业界提出了许多不同的解决方案并一直在不断迭代,比如互联网广告行业龙头谷歌广告(Google Ads)使用了一种基于机器学习的自动出价系统,它可借助历史转化数据训练点击率(CTR)、转化率(CVR)等预测模型,结合拍卖时上下文信号(设备、地理位置、时段、浏览环境等),在每次竞价中实时调整出价(使用了强化学习思想),以最大化广告主的 ROI(如转化次数、收入、ROAS)的目标。
而快手的出价算法此前也已经经历了多轮迭代,整体可以总结为从 PID、MPC 到强化学习(RL)的「三代」演化路径。若将这一过程比喻为汽车工业的发展:
现如今,快手的出价算法已经进化到了第四代:生成式强化学习。
顾名思义,生成式强化学习是一种将当今大热的生成式模型与强化学习技术融合起来的新方法。它弥补了之前的强化学习的一些突出短板。
简单来说,之前的强化学习技术有点像 「一维思考」,只根据单步状态信息进行决策,对于出价状态序列信息利用不够充分。而生成模型(如 Transformer、Diffusion)特别擅长理解和生成有复杂模式的序列数据。反过来,生成模型本质是模仿数据集的动作,高度依赖数据集质量,难以优化序列整体价值;而强化学习能够学到超出数据集效果的策略,直接优化序列整体价值,在原理上相比生成模型具有更高的收益空间。
这两大范式互相增益,便造就了「生成式强化学习」,其能让出价模型实现「多维思考」,从而更充分地利用历史出价序列信息,从而做出更精准的决策。
将生成式模型的能力引入强化学习,无疑为广告出价带来了强大的新动能。但在实践中,直接应用生成模型建模出价策略,也会面临其固有的挑战。
此前,业界已经探索了两种使用生成模型的路径:
具体到技术框架上,业界采用的主流方法有两类:
Decision Transformer 架构
然而,无论采用哪种路径,都必须面对两大核心挑战:
针对这两大业界难题,快手商业化算法团队提出了 GAVE 和 CBD 两大创新算法,如同「双剑合璧」,分别予以破解。
GAVE 算法,为探索配备价值罗盘,超越数据局限
GAVE,全称 Generative Auto-bidding framework with Value-Guided Explorations,即由价值引导探索实现的生成式自动出价框架,诞生于快手商业化算法团队今年 4 月发表的同名论文。
该算法解决了将 Decision Transformer (DT) 架构应用与广告自动出价的两大挑战:
具体来说,快手商业化算法团队分别针对这两大挑战构建了一个解决方案:Score-based RTG(Return to Go)模块和基于价值函数的动作探索机制。而 GAVE 便是这两大解决方案的创新性融合。
GAVE 算法架构图
其中,Score-based RTG 可把当前时刻到序列结尾的成本率约束加到每个时刻 t,使得 RTG 对齐最终评估指标(带惩罚的总转化)。通过灵活调整得分函数参数,框架可适配 CPA、ROI 等不同广告场景需求,以实现目标导向的出价生成决策。
而基于价值函数的动作探索机制包含两个模块:动作探索和可学习价值函数。
那么,GAVE 算法的表现如何呢?快手商业化算法团队通过离线和在线实验进行了验证。
在 AuctionNet 基准上,GAVE 在不同预算设置与数据条件下均取得最优效果,相对于 DT 更是显著提升。
GAVE 与其它基线方法的 AuctionNet 性能对比
不仅如此,该团队还将 GAVE 算法部署到了其大型广告系统中,进行了线上 A/B 测试。结果表明,在 Nobid(预算约束下最大化转化)和 Costcap(CPA 约束下优化转化)两种场景中,GAVE 均显著优于基线。GAVE 在真实广告竞价环境中的有效性与实用性得到了验证。
在线 A/B 测试结果
据了解,该论文已被顶会 SIGIR 接收。
CBD 算法,以补全+对齐破解目标难以对齐的挑战
CBD 算法则是快手商业化算法团队在本月初公布的新方法,全名 Causal auto-Bidding method based on Diffusion completer-aligner,即基于扩散式补全器-对齐器的因果自动出价方法。
CBD 的提出是为了解决基于 DT 的出价技术和直接应用扩散模型(Diffuser)的出价技术的不足。比如基于 DT 的出价技术可能导致误差的累积,缺乏长程规划能力,且可解释性较差,而直接将 Diffuser 应用于广告出价则可能遭遇生成状态序列合法性问题与难以和偏好对齐的问题。
生成状态序列一致性问题和偏好不对齐问题,图中 (a) 和 (d)
为促使基于扩散模型的生成式强化学习出价模型与优化目标更好对齐,快手商业化算法团队 为 CBD 算法创新性地引入了 Completer 和 Aligner 两个模块。
CBD 算法架构示意图
快手商业化算法团队也已经通过实验证明了新方案的有效性。前面关于「生成状态序列一致性问题和偏好不对齐问题」的图片中就给出了非常清晰的展示。可以看到,Completer 和 Aligner 的表现显著优于通过条件式扩散建模实现的生成式自动出价方法 DiffBid,并极大地缓解了生成状态序列一致性问题和偏好不对齐问题。
在基于 AuctionNet 的离线实验中,如下表所示,基于所竞得的总转化价值(Value)指标,CBD 的表现明显优于基线算法性能(包括离线强化学习和 DT 等生成模型方法)。
离线实验中,不同方法竞得的总转化 Value
该团队同样也在快手的大型广告系统中对 CBD 进行了在线 A/B 测试,结果也同样非常亮眼。在保持相近预算(成本)的情况下,广告主实现的平均转化率(目标成本)提升 2%。
尽管该方法相比 DT 方法增加了 6ms 的额外延迟,但因为出价模型调用频率是 20 秒一次,而每次可接受的最大返回时间是 26ms,因而 6ms 的延迟增加对于出价场景是完全可以接受的。该团队在论文中写道:「考虑到所取得的巨大商业价值,额外的推理延迟是值得且正当。」
这些行业领先的技术成果,均出自快手商业化算法团队之手。作为快手的核心算法部门,该团队负责快手国内及海外多场景的广告变现算法研发,致力于通过前沿算法驱动商业营销增长,并持续优化用户体验与客户效果。
该团队在业界早已声名鹊起。在 2024 年的机器学习顶会 NeurIPS 上,快手团队从超过 1500 支国内外队伍中脱颖而出,一举包揽了「大规模拍卖中的自动出价」竞赛通用赛道和 AIGB 赛道的双料冠军,成为赛事最大赢家。
快手包揽 NeurIPS 2024 Auto-Bidding in Large-Scale Auctions 比赛两个赛道第一名
除此之外,团队依托快手实际业务问题,在智能出价和广告推荐均有大量研究成果产出,发表在KDD、ICLR、ICML、NeurIPS 等国际顶会上,并先后斩获 CIKM Best Paper、SIGIR Best Paper 提名奖、钱伟长中文信息处理科学技术奖一等奖等荣誉。
从赛场冠军到业务增长,这些学术与竞赛上的硬实力,最终都转化为了驱动业务增长的强劲动力。如今,以 GAVE 和 CBD 为代表的生成式强化学习出价技术已在快手广告系统中得到应用,在保持广告主既定成本目标不劣化的前提下,为平台实现了超过 3% 的广告收入提升。
从 PID 控制到 MPC 规划,再到强化学习,快手在广告出价领域的探索最终通过 GAVE 和 CBD 算法,迈入了「生成式强化学习」的全新阶段。这不仅是技术的又一次迭代,更是决策理念的根本性跃迁 —— 从单步状态决策,转向基于历史序列决策。已实现的广告收入提升,仅仅是这场变革的开端。
展望未来,快手在生成式强化学习出价技术上的探索并未止步。基于当前的成功实践,快手认为该技术仍存在两大重要的演进方向:
总体来看,从赛场冠军到业务增长,快手正通过对 AI 核心技术的持续探索和应用,不断巩固其在内容社区和数字广告领域的领先地位。从出价基座大模型到推理能力的进化,快手不仅为自身的商业增长描绘了清晰的蓝图,也为整个行业的提供了极富想象力的发展和探索方向。
文章来自于微信公众号 “机器之心”,作者 “机器之心”
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner