大数据(二)作业十: 期末大作业

大作业:

1.选择使用什么数据,有哪些字段,多大数据量。

基于YELP数据集的商业分析

字段名称 含义 数据格式 例子

business_id 商家ID string “business_id”: “tnhfDv5Il8EaGSXZGiuQGg”

name 商家名称 string “name”: “Garaje”

address 商家地址 string “address”: “475 3rd St”

city 商家所在城市 string “city”: “San Francisco”

state 商家所在洲 string “state”: “CA”

postal code 邮编 string “postal code”: “94107”

latitude 维度 float “latitude”: 37.7817529521

longitude 经度 float “longitude”: -122.39612197

stars 星级评分 float “stars”: 4.5

review_count 评论个数 integer “review_count”: 1198

is_open 商家是否营业

0:关闭, 1:营业 integer “is_open”: 1

attributes 商家业务(外卖,business parking) object “attributes”: {
“RestaurantsTakeOut”: true,
“BusinessParking”: {
“garage”: false,
“street”: true,
“validated”: false,
“lot”: false,
“valet”: false
},
}

categories 商家所属类别 array “categories”: [
“Mexican”,
“Burgers”,
“Gastropubs”
]

hours 商家营业时间 dict “hours”: {
“Monday”: “10:00-21:00”,
“Tuesday”: “10:00-21:00”,
“Friday”: “10:00-21:00”,
“Wednesday”: “10:00-21:00”,
“Thursday”: “10:00-21:00”,
“Sunday”: “11:00-18:00”,
“Saturday”: “10:00-21:00”
}

2.准备分析哪些问题?(8个以上)

(1)商业类别

(2)美国10种主要的商业类别

(3)每个城市各种商业类型的商家数量

(4)商家数量最多的10个城市

(5)消费者评价最多的10种商业类别

(6)最受消费者喜欢的前10种商业类型

 

 

3.当前进展。

环境已部署好,正在分析问题。

posted @ 2021-06-11 14:53  阿丹biu  阅读(56)  评论(0编辑  收藏  举报