马斯克刚刚真把 𝕏 平台推荐算法给开源了,核心也是Transformer

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
马斯克刚刚真把 𝕏 平台推荐算法给开源了,核心也是Transformer
9889点击    2026-01-21 10:40

刚刚,𝕏 平台(原 Twitter 平台)公布了全新的开源消息:已将全新的推荐算法开源,该算法由与 xAI 的 Grok 模型相同的 Transformer 架构驱动。


该模型预测用户行为(点赞、回复、转发等)来对帖子进行排序,出现在 For You 一栏中。


马斯克刚刚真把 𝕏 平台推荐算法给开源了,核心也是Transformer


众所周知,推荐算法是社交媒体平台的生命线,几乎已经成为了媒体平台获取用户留存,扩大营销收益的核心。在一周多前,马斯克在 𝕏 平台发推声明「将在 7 天后开源𝕏平台推荐算法」的时候几乎令人难以置信。


马斯克刚刚真把 𝕏 平台推荐算法给开源了,核心也是Transformer


而马斯克确实说到做到,虽然比声称的 7 天内略晚,但推荐算法的确已经完全开源。希望之后能够长期遵循每 4 周重复更新的承诺。


在开源信息发布后,马斯克表示:「我们知道这个算法很笨拙,需要大量的改进,但至少你可以看到我们在实时和透明的情况下努力让它变得更好。没有其他社交媒体公司这样做。


不过,马斯克选择开源 𝕏 平台推荐算法可能另有原因。


据路透社报道,2025 年 7 月,巴黎检察官调查了该社交媒体平台,怀疑其存在算法偏见和欺诈性数据提取,马斯克将其称为「政治动机的刑事调查」,威胁到其用户的言论自由。


12 月,欧盟对 𝕏 处以 1.2 亿欧元罚款,监管机构表示该公司违反了该地区数字服务法案下的透明度义务。罚款与𝕏的「蓝 V」订阅、广告库缺乏透明度以及未能向研究人员提供平台公共数据有关。


既然已经开源,那我们来看一下 𝕏 平台到底公开了些啥?


马斯克刚刚真把 𝕏 平台推荐算法给开源了,核心也是Transformer


  • Github 开源链接:https://github.com/xai-org/x-algorithm


这份代码仓库包含了 𝕏 平台「For You」信息流背后的核心推荐系统


它将站内关系内容(来自你已关注账号的内容)与站外发现内容(通过基于机器学习的召回机制发现的内容)进行融合,并使用基于 Grok 的 Transformer 模型对所有内容进行统一排序。


随后就是一长串的系统架构:


马斯克刚刚真把 𝕏 平台推荐算法给开源了,核心也是Transformer

𝕏 推荐算法系统架构


新系统彻底抛弃了传统的手工规则,并大幅减少启发式方法,采用完全的神经网络方式。


整个推荐过程的核心几乎全部交给了这个基于 Grok 的 Transformer 模型:它通过理解你的历史互动行为(比如点赞、回复、转发等),来判断哪些内容与你最相关。


整个系统的核心是称为 Thunder 和 Phoenix 的组件。「For You」信息流算法会从两个来源中召回、排序并过滤内容:


  • 站内关系内容(In-Network,Thunder):来自你已关注账号的帖子
  • 站外发现内容(Out-of-Network,Phoenix Retrieval):从全局内容池中通过模型发现的帖子


来自这两个来源的内容会被合并在一起,并统一交由 Phoenix 进行排序。Phoenix 是一个基于 Grok 的 Transformer 模型,它会为每一条帖子预测不同形式的互动概率。最终排序分数,是这些预测互动概率的加权组合。


Thunder 组件


这是一个基于内存的帖子存储与实时数据摄取系统,用于跟踪全体用户的最新发帖情况,主要功能包括:


  • 从 Kafka 中消费帖子创建 / 删除事件
  • 为每个用户分别维护原帖、回复 / 转发、以及视频帖的存储
  • 向请求用户提供其关注账号的「站内关系内容(in-network)」候选帖
  • 自动清理超过保留期限的旧帖子
  • 支持亚毫秒级查询,无需访问外部数据库即可获取站内关系内容


Thunder 的作用,是让系统能够极高速地获取「你关注的人最近发了什么」。


Phoenix 组件


这是推荐系统中的 机器学习核心组件,主要包含两个功能模块:


召回(Two-Tower 双塔模型),用于发现相关的站外内容(out-of-network):


  • 用户塔(User Tower):将用户特征和历史互动行为编码为向量表示
  • 候选内容塔(Candidate Tower):将所有帖子编码为向量表示
  • 相似度检索:通过向量点积相似度,召回最相关的 Top-K 帖子


排序(带候选隔离的 Transformer),用于预测每条候选内容的互动概率:


  • 以用户上下文(历史互动)和候选帖子作为输入
  • 使用特殊的注意力掩码机制,确保候选帖子之间不能相互看到彼此
  • 输出不同互动行为的概率预测(点赞、回复、转发、点击等)


基于 Phoenix 的 transformer 模型预测多种参与类型的概率:


Predictions:

├── P(favorite)

├── P(reply)

├── P(repost)

├── P(quote)

├── P(click)

├── P(profile_click)

├── P(video_view)

├── P(photo_expand)

├── P(share)

├── P(dwell)

├── P(follow_author)

├── P(not_interested)

├── P(block_author)

├── P(mute_author)

└── P(report)


加权评分器将这些因素综合成一个最终得分:


FinalScore= Σ (weight_i × P(action_i))


流量密码


这个得分就是影响推文推荐水平的量化数据。简单分析,𝕏 平台的推荐逻辑更加关注评估内容与用户的关系质量。


在新的「For You」机制下,每一条帖子都会被独立评估,排序不再主要依赖点赞数量,而是基于系统对深度互动行为的预测与反馈,包括引用评论、私信分享、复制链接、个人主页点击与关注,以及停留时长。相反,「不感兴趣」、静音、拉黑、举报等负面行为会直接被赋予负权重,显著压低内容分发。


此外,情绪化标题、短期刺激型内容的收益正在下降。算法不仅关注互动峰值,也会捕捉后续的负反馈,从而惩罚低质量、不可持续的互动模式。


同时,发布频率越高并不等于覆盖面越广。系统会对同一作者在同一信息流中的多条内容进行递减加权,刷屏式发布反而更容易被压制。更有效的策略,是降低频率、提高单条内容的独立价值。


在分发机制上,关注关系的重要性进一步上升。来自关注者网络的内容保持满权重,而推送给非关注用户的内容则会被系统性折扣,降低「纯病毒式传播」的成功概率。


总体来看,𝕏 的推荐系统正在明确优化长期关系和内容质量,而不是短期热度。谁能建立稳定、正向的互动关系,谁才能获得更可持续的曝光。


规则已经明确地展现在所有人面前,从中每个人都可以发掘自己的流量密码。


或许大家可以去关注一下我们机器之心的 𝕏 ?


文章来自于“机器之心”,作者 “机器之心”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI