数据初级分析分类(2)

  今天在昨天的基础上进一步规范了地域列的取值,以及使用高德地图的api将昨天模拟百度地图搜索请求未找到的500多条数据重新进行查询。除此之外,还看了一些关于python提取关键字的博客。

  昨天虽然找到了3500多条数据的地域和行政区划代码,但是由于未考虑到完成单位在其他省份的情况,导致某些地域值只有XX市XX区,没有前面的XX省。

  虽然后来又换用高德地图的api进行查询,但是仍有181条数据未能查找到所在地域,我认为一方面是数据集有问题,另一方面是这些单位可能已经改名。我觉得不太可能是重名单位多的原因,因为我在编写脚本时只取了结果列的第一种情况,结果不论有多少只取第一种。其次,这未找到的181条数据中,有9条数据的完成单位是人名,所以真正未将地域维度标准化的数据有172条。

  明天的任务是提取关键字和补充行业分类,如果有时间的话会尝试搜索搜索这172条数据,看看能不能手动将地域维度标准化。

posted @ 2020-03-13 21:41  星辰°  阅读(228)  评论(0编辑  收藏  举报