hadoop大作业
1.数据准备

2.把CSV添加到/bigdatacase/dataset中

3.检查前5行并删除第一行

4.将csv文件导入hadoop并检查前10行数据情况

5.数据文件导入hive


6.在Hive中查看并分析数据


统计出用户所找小区数量最多的10个小区
可见未来世界花园小区深受人们居住的首选
7.:出现的问题解决:
在HIVE中进行查询时,会出现“无法分配内存”,后来内存调了解决问题
8.使用jieba根据字典分词,字典中存放了东莞所有镇区名字,
wordcloud生成词云图。

9.XGeocoding获取坐标
将爬取生成的csv文件导入XGeocoding中批量获取经纬度

Tableau可视化处理
将XGeocoding获取的坐标整合到csv中,作为数据源导入Tableau,设置维度经纬度为列行,地图使用高德的tms离线包,即可在地图中显示坐标点,再加入价格等参数进行数据可视化处理。

9.可视化分析结果:
房源热力图

热力图更直观的看出来东莞城区和虎门镇房源更加密集

均价图

均价可以间接看出来哪里比较繁华,郊区的均价偏低
房价图

可以看出来,东莞的二手房价大部分都低于或等于平均值(绿色),部分房价高(红色)的一般都是依山傍水
浙公网安备 33010602011771号