摘要:
数据清洗概述 数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合 阅读全文
posted @ 2024-01-29 21:16
伽澄
阅读(134)
评论(0)
推荐(0)
摘要:
一、 采集北京市政百姓信件内容 什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 爬 阅读全文
posted @ 2024-01-29 00:24
伽澄
阅读(180)
评论(0)
推荐(0)

浙公网安备 33010602011771号