实验数据集整理

个人目录下：
Web
    Crawled by myself # 自己爬取的数据集
        cn 5 depth # 用nutch 0.7.2爬取的数据集，限制在cn域中，包括链接和文本
        cn-2010-01-01 # 用nutch 0.7.2爬取的数据集，限制在cn域中，包括链接和文本
        dlut.edu.cn2010-01-01 # 用nutch 0.7.2爬取的数据集，限制在dlut.edu.cn域中
        linkexchange 2010-09 # 从一些link exchange directory开始，向外爬取，可以利用这个找出大量的link exchange站点（注意：爬取时修改了nutch，或略了robot.txt的作用，因为这些link exchange站点为了保护自身而用robot.txt禁止搜索引擎的索引）
    ECML PKDD 2010 Discovery Challenge Data Set # 这个数据集是去年EPKDD挑战的数据集，这个数据集是用了做网页质量与网页分类的（高于Web Spam），但我们也可以用作Web Spam的数据集
    LAW datasets # 一堆Web数据，没有Spam相关的标记，都比较老了，做社区的可以用一用
    web09-bst # 这是09年发布的一个大型的Web数据集，有人已经了做了Spam的标记，可以用作Web Spam数据集
    WebbSpamCorpus # 这个数据集是把垃圾邮件中的一些链接经过一定的筛选当成Web Spam的，可以用这个数据来进行标记
    WEBSPAM-LIP6-2006 # 是一个比较老的，专门用来做Web Spam研究的数据集
    WEBSPAM-UK2006 # 是一个比较老的，专门用来做Web Spam研究的数据集
    WEBSPAM-UK2007 # 这也是一个专门用来做Web Spam研究的数据集，但是这个数据集中标记的Spam页面的数量有点少，可能不太符合现实的情况，建议不要单独只用这个数据集来做实验，可以多用几个数据集
Social
    bibsonomy dumps # 这个是从bibsonomy数据库中dump出来的数据集，所有的数据都有标记，是做social spam研究的一个很好的数据集，这个数据集是我跟对方签了协议得来的，请不要传播出去，并且只能用于实验目的
    Dataset for Statistics and Social Network of YouTube Videos # 这个数据集是一篇论文中提到的，是用来研究Youtube的
    delicious # 这些数据都是从delicous上爬取下来的，是用来研究social spam的数据集，其中前三个是我自己爬取的，最后一个别人爬取的
    Twitter # 这个目录下面是两个twitter数据集
    Wiki # 这个下面是两个Wikipedia数据集，另外Wikipedia数据集官方网站也有提供的
SPlog # 一个Spam blogs数据集，已经很老了
News # 一个新闻数据集，主要是从一些新闻网站上爬取下来的
Email # 邮件数据集
Other
    AOL Query Clickthrough # 少有的几份公开发行的用户点击信息之一

小组目录下：
Twitter #包括tweets和twitter graph，是两个数据集合起来的
posted on 2011-12-22 22:41 小橋流水阅读(945) 评论(0) 收藏举报
刷新页面返回顶部
小橋流水's Blog

实验数据集整理

公告

导航