数据采集&数据源&Notebook平台
数据采集之数据源:
(1)开放数据源
(2)爬虫爬取
(3)传感器
(4)日志采集
开放数据源:
|
单位 |
数据源 |
网址 |
|
美国人口调查局 |
提供人口信息,地区分布和教育情况等美国公民相关的数据 |
|
|
欧盟 |
欧盟开放数据平台,提供欧盟各机构的大量数据。 |
|
|
|
Facebook官方提供的API,用于查询用户公开的海量信息 |
|
|
Amazon |
亚马逊网络服务开放数据集 |
|
|
|
谷歌金融,收录了40年以来的股票数据,实时更新 |
|
|
北京大学 |
北京大学开放研究数据平台 |
|
|
ImageNet |
目前世界上图像识别最大的数据库,包括近1500万张图像 |
|
数据集 |
说明 |
网址 |
|
MovieLens |
电影推荐系统数据集,包括多个大小的版本 |
|
|
Netflix Prize DataSet |
1亿部电影评分,Netflix悬赏100万美金的知名数据集 |
|
|
LETOR |
信息检索数据集 |
https://www.microsoft.com/en-us/research/project/letor-learning-rank-information-retrieval/ |
|
MSLR |
微软发布的Learning to Rank数据集 |
|
|
Yahoo LTR |
雅虎发布的LTR比赛数据集 |
http://webscope.sandbox.yahoo.com/ |
Online Notebook使用(免费提供GPU):
Kaggle Notebook
Baidu AI Studio
天池Notebook
Google Colab

浙公网安备 33010602011771号