摘要:
爬虫第一步:新建项目 选择合适的位置,执行命令:scrapy startproje xxxx(我的项目名:douban) 爬虫第二步:明确目标 豆瓣电影排行url:https://movie.douban.com/top250?start=0, 分析url后发现srart=后面的数字,以25的步长递 阅读全文
posted @ 2020-01-09 22:51
我要去巴黎
阅读(341)
评论(0)
推荐(0)
摘要:
编写setting.py文件,写好相关的配置就可以运行 配置文件需要修改的并不多,下面 只把需要修改或添加的代码 贴进来 ~~~ 使用scrapy redis的url指纹去重,不使用scrapy默认去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPD 阅读全文
posted @ 2020-01-09 16:51
我要去巴黎
阅读(202)
评论(0)
推荐(0)

浙公网安备 33010602011771号