马斯克今天,开源了推特 X 的信息流推荐系统的工作代码与原理

img

今天下午,马斯克如约奉告。

本文的完整版原文全文地址:https://www.ccgxk.com/emlog_dev/625.html

当然,这种技术公开,其实价值就不再很大了,马斯克本人说该算法垃圾啊,估计会大改,但依然非常有趣。

不过,马斯克和特朗普一样,都是全球知名后就一直行为离谱的人,他把自己旗下的东西该开源的都开源了,今天竟然把推荐算法也开源了。

(PS:作为一个出海 SaaS AI 网站从业者的我,渴望盼望,谷歌 Google 也能像他一样,如此详细地开放它的排名算法,干 SEO 猜了快 10 年了,每年一更新都要重新猜,永远猜不对.... )

短着看的话,对于运营者来讲,游客行为影响大概就下面这些内容:

img

图片由 @chelsonw_ 整理

四大影响:

一、不要放 外链(链接),这个虽然默许,但暗中惩罚最严重!

二、评论区的评论,很影响帖子的推荐(要多回复、评论,甚至「吵架」),收藏次之。

三、垂直度相对很重要。

四、拉黑、点踩,最不重要!

而一些反常识的真相,点赞和转发反而很低。

(很有意思的是,这个权重,其实早在 2023 年就公布了~ )

怎么看待这件事呢?

我觉得马斯克可能会赢,因为对于社区来讲,这个推荐算法就不应该是一个黑箱,而是应该公开可见。

我还是很期待之后四周一更新,到最后能搞出个什么超级推荐算法。甚至能比最先进的 抖音 Tiktok 算法还厉害。下面说一些细节。

算法的开源仓库是 : https://github.com/xai-org/x-algorithm

(仓库包含部分的真实的生产环境下的工作代码)

首先你的推特首页,给你推荐的帖子,有两个来源:你关注的账号和全局语料库里发现的帖子。

然后这俩内容,会通过 Phoenix (凤凰模型)合并排序。基于马斯克自家的 Grok 改造过的人工智能模型。

这个凤凰模型,主要用于预测贴文的互动概率。并且也强调了,这个模型里面没有人类大拍脑门搞的各种创意规则,而是完全由人工智能推荐。

整个推特 X 的推荐架构是:

img

其中,最上面的核心调度层(Home Mixer),在你刷新首页后,开始为你整理这个信息流。

从 用户的【关注表与互动历史】 和 【凤凰模型】里选数据。如果不够,就用数据填充表 Hydrators 里找数据充数。

现在数据有了,就移除不合格的内容,用过滤器 Filters:

之后用 Scorers 给这些内容打分,用 Selector 选出前 n 项,之后再去重,然后缓存用户的请求,返回这个最终排名,然后你就刷到了!

Thunder 引擎

这个东西,可以在 100 毫秒内,获取用户的所有近期内容,能自动增删查改,它在服务器内存里,而不是服务器里,速度很快。

Phoenix 引擎

这个是机器学习模型,它包括检索相似的帖子的模型 双塔模型(Two-Tower Model),以及排序。预测内容的未来互动概率(即点赞、回复、转发、点击等),并且排序时,会将各个内容分类好,相互紧挨的内容,类别不同,互不相同。

整个过程,就是这个样子!

这些不是什么有趣的东西,毕竟推荐系统这样设计,谁都会。

但是最值钱的,就是这个模型到底是怎么给内容高分、低分的。这在所有算法推荐社媒公司都是机密,被人知道搞清楚后,会被作弊,把低质量内容刷高。

下面是真实的 凤凰模型 打分(预测)指标点:

Predictions
├── 收藏概率
├── 回复概率
├── 转发概率
├── 引用转发概率
├── 点击概率
├── 进入个人主页概率
├── 视频观看概率
├── 图片展开概率
├── 分享概率
├── 停留时长概率
├── 关注作者概率
├── 标记不感兴趣概率
├── 拉黑作者概率
├── 屏蔽作者概率
└── 举报概率

Final Score = Σ (weight_i × P(action_i))

P(action_i) 是预测值
weight_i 是系统权重(全站固定的,根据效果会慢慢迭代)
累加得出一个最终得分

其中,真正核心的代码,是这个开源仓库的 x-algorithm/phoenix/runners.py 这个 Python 文件。

注意,我上面给出的那个各信号权重,比如点赞权重很小,相互回复,权重很大,是基于这里面的逻辑进行估算的。真正的权重值依然未公开,也无法公开,因为那是 LLMS 大语言模型估算的,即便是工作人员也很难拿到一个精确的值。

但大致根据代码能感受到回复、停留时间的权重很高很高,但点赞几乎微乎其微。

这个并非完全没有线索,早在 2023 年,就已经给出了早些年的权重:

https://github.com/twitter/the-algorithm-ml/blob/main/projects/home/recap/README.mdgithub.com/twitter/the-algorithm-ml/blob/main/projects/home/recap/README.md

后续是在其基础上进行微调:

img

其值为:

点赞的权重是 0.5
转发权重是 1.0。比点赞重要一点。
回复权重是 13.5
高质量的作者主页点击,权重 12.0
视频播放到 50% 的权重是 0.005。几乎可以忽略。
作者参与的回复,权重 75.0。这是极其强的信号。
高质量点击,权重 11.0
改进版的高质量点击,权重 10.0
负反馈的权重是 -74.0
举报的权重是 -369.0

当时没有给出具体排序算法,现在算法有了,因此可以得出上图的那个大概的结论。

posted @ 2026-01-20 23:08  独元殇  阅读(0)  评论(0)    收藏  举报