论文笔记-Mining latent relations in peer-production environments

背景

用户合作产生内容的网站越来越多，有许多隐藏的信息可以去挖掘
wiki上保存了贡献者的编辑记录，提供了非常多的有用的信息
研究发现，大部分的贡献者仅仅会参与编辑很小数量的文章，修改的版本也有限制，通常也只在某几个特定的领域/话题中
含有某个主题的文章通常指吸引特定一部分的读者和编辑者

论文关注点

提出一个新的相似度计算方法 expert-based similarity 应用于维基上有争论性的文章集，从而达到更好的聚类效果
维基上争论性的文章的缘由是和自身的特定主题相关的，而不是相关编辑参与者

论文实验方法

比较已有的三种相似度方法：cosine similarity；SimRank；P-Rank
expert-based similarity的理论假设：如果两篇文章被同一个人编辑过，我们则认为该两篇文章是相似的
使用了下面三种方法来检测维基上文章的相关性

Relevance aspect Similarity Relation type

Content Cosine similarity Explicit

Hyperlink P-Rank and SimRank similarities Implicit

Co-editorship Expert-based similarity Implicit

Relevance aspect	Similarity	Relation type
Content	Cosine similarity	Explicit
Hyperlink	P-Rank and SimRank similarities	Implicit
Co-editorship	Expert-based similarity	Implicit

文章一共进行了三次实验来评价以上相似度方法，并验证了方法在大量数据上的一般性
1. 第一次实验使用了compactness指标来评价聚类效果，聚类算法使用了K-Medoids，相似度算法使用了SimRank和P-Rank，同时为了避免选择K时带来的干扰，使用了DBScan方法避免预先指定聚类的个数K
  expert-based方法结果最稳定，有较高的性能和鲁棒性 SimRank方法的结果最坏通过人工方法的评测发现，expert-based方法对于发现维基中语义相关的文章非常有用
2. 第二次实验利用了分类标签，用purity和entropy来评价聚类效果，聚类使用了K-Medoids和AHC，相似度使用了上述4种方法
  总的来说，expert-based方法在量化wiki文章的相关性上是一种有效的措施
3. 第三次实验是在大规模的文档集上评价了expert-based similarity

数据的准备：选用了宗教主题相关的文章，考虑到里面争论性的比例比较大；选取的文章保证有5个以上的编辑者；对于基于内容的相似度方法，通常选取最近的5个版本；对于基于超链接的选择最近的3到5个含有链接的版本
expert-based方法的优势在于对于破坏性的大量的编辑有较好的防范性，原因在于它采用了类似IDF的计算方法
第五章验证了导致争论的主要原因
如果两个用户之间有互相删除内容的行为，我们认为这两个用户是在争论
通过对贡献者、concept等方面入手，比较争论性形成的原因，得到结论：特定的争论性的主题是维基争论性文章的主要缘由

文章结论

expert-based similarity方法是一种高效有用的度量文章相关度的方法

如若感兴趣，可自行google下载，提供参考链接

posted @ 2014-11-05 20:56 Nobodybing 阅读(165) 评论(0) 收藏举报

刷新页面返回顶部

Nobodybing

论文笔记-Mining latent relations in peer-production environments

背景

论文关注点

论文实验方法

文章结论

公告