论文笔记-Mining latent relations in peer-production environments

背景

  • 用户合作产生内容的网站越来越多,有许多隐藏的信息可以去挖掘
  • wiki上保存了贡献者的编辑记录,提供了非常多的有用的信息
  • 研究发现,大部分的贡献者仅仅会参与编辑很小数量的文章,修改的版本也有限制,通常也只在某几个特定的领域/话题中
  • 含有某个主题的文章通常指吸引特定一部分的读者和编辑者

论文关注点

  • 提出一个新的相似度计算方法 expert-based similarity 应用于维基上有争论性的文章集,从而达到更好的聚类效果
  • 维基上争论性的文章的缘由是和自身的特定主题相关的,而不是相关编辑参与者

论文实验方法

  • 比较已有的三种相似度方法:cosine similarity;SimRank;P-Rank
  • expert-based similarity的理论假设:如果两篇文章被同一个人编辑过,我们则认为该两篇文章是相似的
  • 使用了下面三种方法来检测维基上文章的相关性
Relevance aspect Similarity Relation type
Content Cosine similarity Explicit
Hyperlink P-Rank and SimRank similarities Implicit
Co-editorship Expert-based similarity Implicit
  • 文章一共进行了三次实验来评价以上相似度方法,并验证了方法在大量数据上的一般性
    1. 第一次实验使用了compactness指标来评价聚类效果,聚类算法使用了K-Medoids,相似度算法使用了SimRank和P-Rank,同时为了避免选择K时带来的干扰,使用了DBScan方法避免预先指定聚类的个数K
      expert-based方法结果最稳定,有较高的性能和鲁棒性 SimRank方法的结果最坏 通过人工方法的评测发现,expert-based方法对于发现维基中语义相关的文章非常有用
    2. 第二次实验利用了分类标签,用purity和entropy来评价聚类效果,聚类使用了K-Medoids和AHC,相似度使用了上述4种方法
      总的来说,expert-based方法在量化wiki文章的相关性上是一种有效的措施
    3. 第三次实验是在大规模的文档集上评价了expert-based similarity
  • 数据的准备:选用了宗教主题相关的文章,考虑到里面争论性的比例比较大;选取的文章保证有5个以上的编辑者;对于基于内容的相似度方法,通常选取最近的5个版本;对于基于超链接的选择最近的3到5个含有链接的版本
  • expert-based方法的优势在于对于破坏性的大量的编辑有较好的防范性,原因在于它采用了类似IDF的计算方法
  • 第五章验证了导致争论的主要原因
  • 如果两个用户之间有互相删除内容的行为,我们认为这两个用户是在争论
  • 通过对贡献者、concept等方面入手,比较争论性形成的原因,得到结论:特定的争论性的主题是维基争论性文章的主要缘由

文章结论

  • expert-based similarity方法是一种高效有用的度量文章相关度的方法
如若感兴趣,可自行google下载,提供参考链接
posted @ 2014-11-05 20:56  Nobodybing  阅读(155)  评论(0编辑  收藏  举报