会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
星辰°
博客园
首页
新随笔
联系
订阅
管理
2020年1月30日
学习进度(3)
摘要: 今天将爬下来的数据清洗了清洗,这些数据中存在一些重复数据,应该是北京市政官网的数据库有点问题。 清洗完我才发现,其实可以直接用navicat导入。将original_id这个字段设置为主键,直接就能将重复数据剔除。 今天还尝试爬取信件的具体内容以及完成了部分信件数据可视化的内容。
阅读全文
posted @ 2020-01-30 16:07 星辰°
阅读(101)
评论(0)
推荐(0)
公告