数据采集&数据源&Notebook平台

数据采集之数据源:

(1)开放数据源

(2)爬虫爬取

(3)传感器

(4)日志采集

开放数据源:

 

单位

数据源

网址

美国人口调查局

提供人口信息,地区分布和教育情况等美国公民相关的数据

http://www.census.gov/data.html

欧盟

欧盟开放数据平台,提供欧盟各机构的大量数据。

http://open-data.europa.eu/en/data/

Facebook

Facebook官方提供的API,用于查询用户公开的海量信息

https://developers.facebook.com/docs/graph-api

Amazon

亚马逊网络服务开放数据集

http://aws.amazon.com/datasets

Google

谷歌金融,收录了40年以来的股票数据,实时更新

https://www.google.com/finance

北京大学

北京大学开放研究数据平台

http://opendata.pku.edu.cn/

ImageNet

目前世界上图像识别最大的数据库,包括近1500万张图像

http://www.image-net.org/

 

数据集

说明

网址

MovieLens

电影推荐系统数据集,包括多个大小的版本

https://grouplens.org/datasets/movielens/

Netflix Prize DataSet

1亿部电影评分,Netflix悬赏100万美金的知名数据集

https://www.netflixprize.com/

LETOR

信息检索数据集

https://www.microsoft.com/en-us/research/project/letor-learning-rank-information-retrieval/

MSLR

微软发布的Learning to Rank数据集

https://www.microsoft.com/en-us/research/project/mslr/

Yahoo LTR

雅虎发布的LTR比赛数据集

http://webscope.sandbox.yahoo.com/

Online Notebook使用(免费提供GPU):

Kaggle Notebook

Baidu AI Studio

天池Notebook

Google Colab

 

posted @ 2020-09-23 16:15  mingke07  阅读(380)  评论(0)    收藏  举报