实验数据集整理
个人目录下:
Web
Crawled by myself # 自己爬取的数据集
cn 5 depth # 用nutch 0.7.2爬取的数据集,限制在cn域中,包括链接和文本
cn-2010-01-01 # 用nutch 0.7.2爬取的数据集,限制在cn域中,包括链接和文本
dlut.edu.cn2010-01-01 # 用nutch 0.7.2爬取的数据集,限制在dlut.edu.cn域中
linkexchange 2010-09 # 从一些link exchange directory开始,向外爬取,可以利用这个找出大量的link exchange站点(注意:爬取时修改了nutch,或略了robot.txt的作用,因为这些link exchange站点为了保护自身而用robot.txt禁止搜索引擎的索引)
ECML PKDD 2010 Discovery Challenge Data Set # 这个数据集是去年EPKDD挑战的数据集,这个数据集是用了做网页质量与网页分类的(高于Web Spam),但我们也可以用作Web Spam的数据集
LAW datasets # 一堆Web数据,没有Spam相关的标记,都比较老了,做社区的可以用一用
web09-bst # 这是09年发布的一个大型的Web数据集,有人已经了做了Spam的标记,可以用作Web Spam数据集
WebbSpamCorpus # 这个数据集是把垃圾邮件中的一些链接经过一定的筛选当成Web Spam的,可以用这个数据来进行标记
WEBSPAM-LIP6-2006 # 是一个比较老的,专门用来做Web Spam研究的数据集
WEBSPAM-UK2006 # 是一个比较老的,专门用来做Web Spam研究的数据集
WEBSPAM-UK2007 # 这也是一个专门用来做Web Spam研究的数据集,但是这个数据集中标记的Spam页面的数量有点少,可能不太符合现实的情况,建议不要单独只用这个数据集来做实验,可以多用几个数据集
Social
bibsonomy dumps # 这个是从bibsonomy数据库中dump出来的数据集,所有的数据都有标记,是做social spam研究的一个很好的数据集,这个数据集是我跟对方签了协议得来的,请不要传播出去,并且只能用于实验目的
Dataset for Statistics and Social Network of YouTube Videos # 这个数据集是一篇论文中提到的,是用来研究Youtube的
delicious # 这些数据都是从delicous上爬取下来的,是用来研究social spam的数据集,其中前三个是我自己爬取的,最后一个别人爬取的
Twitter # 这个目录下面是两个twitter数据集
Wiki # 这个下面是两个Wikipedia数据集,另外Wikipedia数据集官方网站也有提供的
SPlog # 一个Spam blogs数据集,已经很老了
News # 一个新闻数据集,主要是从一些新闻网站上爬取下来的
Email # 邮件数据集
Other
AOL Query Clickthrough # 少有的几份公开发行的用户点击信息之一
小组目录下:
Twitter #包括tweets和twitter graph,是两个数据集合起来的
本文基于署名 2.5 中国大陆许可协议发布,欢迎转载,演绎或用于商业目的,但是必须保留本文的署名小橋流水(包含链接)。如您有任何疑问或者授权方面的协商,请给我发邮件。
浙公网安备 33010602011771号