Google分析language垃圾信息

最近一段时间，我在Google Analytics（以下简称GA）中查看网站数据时，发现一个非常可疑的信息：

GA spam

这什么鬼？

“language”这一项一般是 “zh-tw”, “zh-cn”, “en-us”, “es”, “fr”等，它是由用户浏览器设定的。但用户浏览器不可能把语言项设置为这些：

Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!

o-o-8-o-o.com search shell is much better than google!

Vitaly rules google ☆:｡゜ﾟ･ヽ(^ᴗ^)ﾉ･゜ﾟ｡:☆ ¯_(ツ)/¯(ಠ益ಠ)(ಥ‿ಥ)(ʘ‿ʘ)ლ(ಠಠლ)( ͡° ͜ʖ ͡°)ヽ(ﾟДﾟ)ﾉʕ•̫͡•ʔᶘ ᵒᴥᵒᶅ(=^ ^=)oO

Congratulations to Trump and all americans

分析请求

很明显，这是一种新的 spam（垃圾信息），希望吸引目标人群（可能就是我们这样的网络管理员）的注意力。

仔细地观察这些请求，会发现几个特点：

请求数有明显的波峰，在几天内会达到高峰，然后又降下去
New Sessions 的比例非常高，达到了86%以上

分析其它受攻击的栏目

仔细查看 GA 统计项目的这些请求，发现 referrer 一栏也比较可疑地出现了这些：

motherboard.vice.com addons.mozilla.org webmasters.stackexchange.com blackhatworld.com thenextweb.com abc.xyz lifehacĸer.com ...

这其中有一些非常正规的域名。比如abc.xyz是Google的母公司alphabet的官网，thenextweb.com也是一个开发者媒体。

这些网站本身没有问题，但其实该网站上并没有任何一个链接指向我的博客，更谈不上我的访客“来自”（referral）该网站了。当我访问回去，发现并没有实际上的链接，只是广告，倒也罢了，更可怕的是可能会有钓鱼、病毒等。

综上，这是一波二维攻击（假的语言项和假的 referral 项），目的是吸引你的注意力。

分析攻击怎么产生的

总的来说，这种垃圾信息有两种攻击方式。一种是真正会访问你的网站的网络爬虫；另一种是不访问你的网站，而是将假冒的“点击”事件直接发送到GA服务器。事实上，第二种攻击方式由于成本低，因而更加常见。

GA 的统计逻辑是，当用户访问你的网站，会在前端运行一段 JavaScript 代码，然后把用户的一些访问情况通过 HTTP 请求发送给 GA 服务器，告诉 GA 发生了一次“访问”。而这个 HTTP 请求可以很容易地被伪造，所以垃圾信息发送者无需真的访问你的站点，它直接发送大量 HTTP 请求即可达到目的。

除了 HTTP 请求，GA 还支持更方便的Measurement Protocol ，开发者可以发送一个原始数据（raw data）给GA，来一次性传输大量用户行为。这个协议的初衷是让开发者可以统计所有环境下的用户行为，比如开发者可以将离线状态下的用户行为记录下来，当在线时一次性发送。或者当内网不支持外部访问时，先记录下用户行为，随后再定时一次性发送到 GA。

初衷是好的，不幸的是，这个过程仍然是无需认证身份，所以更方便了垃圾信息发送者。垃圾信息发送者可以通过一次请求即发送大量假数据，他只需要得到你的 UA-ID（UA-XXXXXXX-XX）即可。

在这个原始数据包中，一切皆可伪造。Hostname？没问题！Referral？全改了！URL path？当然也可以改……