2021年6月5日

摘要：爬取到的数据想要进行保存的话，首先要对数据进行格式化话，这样数据格式统一才方便进行保存数据格式化 item.py 在我们创建的爬虫项目中 item.py 这个文件就是负责进行格式化数据的 import scrapy # 这里我们可以创建多个class,每个对象中的字段就是我们要格式化的数据 # 阅读全文

posted @ 2021-06-05 17:54 Rannie` 阅读(133) 评论(0) 推荐(0)

Scrapy 过滤器

摘要： Scrapy 过滤器当我们在爬取网页的时候可能会遇到一个调转连接会在不同页面出现，这个时候如果我们的爬虫程序不能识别出该链接是已经爬取过的话，就会造成一种重复不必要的爬取。所以我们要对我们即将要爬取的网页进行过滤，把重复的网页链接过滤掉指纹过滤器去重处理可以避免将重复性的数据保存到数据库中阅读全文

posted @ 2021-06-05 13:27 Rannie` 阅读(378) 评论(0) 推荐(0)

公告