公开数据来源

    1. 公开的数据来源:http://www.datatang.com/数据堂的数据非常丰富,包括各种行业数据,电信,零售,金融,银行等等,特别适用于数据挖掘。
      • UCI是最经典的,不过也比较古老http://archive.ics.uci.edu/ml/
      • 数据堂最近异军突起,非常值得称赞
      • 国外还有一些网站,比如mlcomp.org/mldata.org/你可以看看
      • 另外KDDCUP每年都会针对一个特定的问题进行比赛,数据集也是公开的
      • 最近几年,数据挖掘的比赛越来越多了,你可以去PASCAL上看看你感兴趣的领域,自己搜索一下
      • delicious.com/pskomoro这个是delicious上面一个人搜集的数据集网站书签,比较杂,或许你能找到你所要的(话说delicious改版之前这个里面的内容比现在的多多了) 
      • 再有就是看具体的做的内容,然后看相关学者都用什么数据集,除了LDC那种变态组织,其他很多数据都可以通过track论文中的信息或者是作者主页上的信息下载到的
      • 做数据挖掘和数据分析都是针对某一个领域或者问题去做,其实也看那个领域会不会有开放的心态去公开数据,前两年在Hans Rosling老先生在TED上公开呼吁之后,很多机构,包括联合国都公开了自己的数据 
      补充,在quora上面看到一个问题中的答案涉及这个问题,那个更加全面 quora.com/Data
    2. 1、气候监测数据集 cdiac.ornl.gov/ftp/ndp026b
      2、几个实用的测试数据集下载的网站
      cs.toronto.edu/~roweis
      cs.toronto.edu/~roweis
      kdd.ics.uci.edu/summary
      www-2.cs.cmu.edu/afs/cs
      www-2.cs.cmu.edu/afs/cs
      phys.uni.torun.pl/~duch
      在下面的网址可以找到reuters数据集research.att.com/~lewis
      以下网址上有各种数据集:
      kdd.ics.uci.edu/summary
      进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
      www-2.cs.cmu.edu/afs/cs/projec
      3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果
      可能有一些不能访问,但是总有能访问的吧:
      UCI收集的机器学习数据集
      ftp://pami.sjtu.edu.cn/
      ics.uci.edu/~mlearn
      statlib
      liama.ia.ac.cn/SCILAB
      lib.stat.cmu.edu/
      样本数据库
      kdd.ics.uci.edu/
      ics.uci.edu/~mlearn
      关于基金的数据挖掘的网站
      gotofund.com/index
      lans.ece.utexas.edu/~strehl/
      reuters数据集
      research.att.com/~lewis
      各种数据集:
      kdd.ics.uci.edu/summary
      mlnet.org/cgi-bin
      lib.stat.cmu.edu/datasets/
      dctc.sjtu.edu.cn/adaptive
      fimi.cs.helsinki.fi/data/
      almaden.ibm.com/software
      miles.cnuce.cnr.it/~palmeri
      进行文本分类&WEB
      www-2.cs.cmu.edu/afs/cs/projec
      w3.org/TR/WD-log
      w3.org/Daemon
      w3.org/1998
      www-2.cs.cmu.edu/afs/cs
      web-caching.com/traces-l
      www-2.cs.cmu.edu/webkb
      cs.auc.dk/research
      cs.cornell.edu/projects
      时间序列数据的网址
      stat.wisc.edu/~reinsel
      apriori算法的测试数据
      almaden.ibm.com/cs/quest
      数据生成器的链接
      cse.cuhk.edu.hk/~kdd
      almaden.ibm.com/cs/quest
      关联:
      flow.dl.sourceforge.net/sourcefo
      almaden.ibm.com/software
      WEKA:
      flow.dl.sourceforge.net/sourcefo
      1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
      prdownloads.sourceforge.net/weka
      2。A jarfile containing 37 regression problems, obtained from various sources
      prdownloads.sourceforge.net/weka
      3。A jarfile containing 30 regression datasets collected by Luis Torgo
      prdownloads.sourceforge.net/weka
      癌症基因:
      broad.mit.edu/cgi-bin
      金融数据:
      lisp.vse.cz/pkdd99

      另一个人提供的
      cs.toronto.edu/~roweis
      kdd.ics.uci.edu/summary
      www-2.cs.cmu.edu/afs/cs
      www-2.cs.cmu.edu/afs/cs
      phys.uni.torun.pl/~duch
      在下面的网址可以找到reuters数据集
      research.att.com/~lewis
      以下网址上有各种数据集:
      kdd.ics.uci.edu/summary
      进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
      www-2.cs.cmu.edu/afs/cs/projec
      Download the Financial Data (~17.5M zipped file, ~67M unzipped data)
      Download the Medical Data (~2M zipped file, ~6M unzipped data)
      lisp.vse.cz/pkdd99
      kdnuggets 相关链接数据集(借花献佛了):
      kdnuggets.com/datasets
      你也可以到blogger.org.cn/blog
      察看kdnuggets 数据集资源的详细介绍。
posted @ 2013-03-21 00:16  <无影人>  阅读(354)  评论(0编辑  收藏  举报