[Reading Notes] 2010 ICISTM Can Your Judge a Man by His Friends?-Enhancing Spammer Detection on the Twitter Microblogging Platform Using Friends and Followers

方法

这篇文章利用机器学习与社交网络信任传播相结合的方法来检测微博中的作弊者。该方法分为两步:第一步,首先利用用户的基础属性(和该用户相关的一些 特征)构建一个基学习器(分类器),然后利用该基学习器以及人工标记的一些训练集来预测其他的用户的类别(作弊与非作弊);第二步,首先利用第一步中得到 的结果,结合用户社交网络的信任传播模型得到一个用户的扩展属性集,然后利用这些扩展属性集构建一个学习器,再利用该学习器及训练样本预测其他用户的类 别。总过程如下图所示。

数据集

  • 作弊用户的收集:采用网页twitspam.org(一个用户可以提交怀疑为Twitter作弊用户的地方);
  • 可信用户的收集:作者采用他们自己follow的用户作为可信用户。
最终作者获取了77作弊用户,155个可信用户。另外,每个用户的followers的信息也被收集了(上限:200)。

属性集

  • 基本属性集
    • follower-friend ratio
    • number of posts marked as favorites
    • friends added per day
    • followers added per day
    • account is protected?
    • updates per day
    • has url?
    • number of digits in account name
    • reciprocity
  • 扩展属性1:好友和跟随者相关的属性集
    • follower-friend ratio
    • updates per day
    • friends added per day
    • followers added per day
    • reciprocity
    • account is protected?
  • 扩展属性2:信任传播

基于的假设:合法用户对作弊用户发布的内容应该不那么感兴趣

trust metric = sumlimits_{followers}frac{1}{#users followed}

备选方案:

- 信任只对合法用户进行累加

- 信任累加设定一个上限:最高只有200个用户

- 用frac{1}{#users followedtimes#users followed}代替frac{1}{#users followed}

所有这些备选方案的输出都作为一个扩展属性,另外一个用户跟随者中预测的作弊用户与合法用户的比例也被当成一个扩展属性。

实验

分类算法的选取:第一步和第二步实验不同的分类算法,比较精度,最后发现第一步和第二步都使用RIPPER最好。

实验比较:测试几种组合的结果(采用十字交叉验证),最后比较ROC图谱。

总结

这篇文章总的来说,还不是很完善,收集的数据集很少,在很少的数据上的结果可能不是很有说服力。信任传播的使用是有效的,也是我一直我想去做的。这里用到的信任传播可能并不是很完美,提升的空间还很大。

posted on 2010-10-10 01:05  小橋流水  阅读(222)  评论(0编辑  收藏  举报

导航