摘要:
爬取到的数据想要进行保存的话, 首先要对数据进行格式化话,这样数据格式统一才方便进行保存 数据格式化 item.py 在我们创建的爬虫项目中 item.py 这个文件就是负责进行格式化数据的 import scrapy # 这里我们可以创建多个class,每个对象中的字段就是我们要格式化的数据 # 阅读全文
posted @ 2021-06-05 17:54
Rannie`
阅读(122)
评论(0)
推荐(0)
摘要:
Scrapy 过滤器 当我们在爬取网页的时候可能会遇到一个调转连接会在不同页面出现,这个时候如果我们的爬虫程序不能识别出 该链接是已经爬取过的话,就会造成一种重复不必要的爬取。所以我们要对我们即将要爬取的网页进行过滤,把重 复的网页链接过滤掉 指纹过滤器 去重处理可以避免将重复性的数据保存到数据库中 阅读全文
posted @ 2021-06-05 13:27
Rannie`
阅读(369)
评论(0)
推荐(0)


浙公网安备 33010602011771号