摘要:
我们在写普通脚本的时候,从一个网站拿到一个文件的下载url,然后下载,直接将数据写入文件或者保存下来,但是这个需要我们自己一点一点的写出来,而且反复利用率并不高,为了不重复造轮子,scrapy提供很流畅的下载文件方式,只需要随便写写便可用了。 mat.py文件 pipelines.py settin 阅读全文
posted @ 2017-12-24 15:33
Charles.L
阅读(7461)
评论(0)
推荐(0)
摘要:
使用背景: 我们通常在爬去某个网站的时候都是爬去每个标签下的某些内容,往往一个网站的主页后面会包含很多物品或者信息的详细的内容,我们只提取某个大标签下的某些内容的话,会显的效率较低,大部分网站的都是按照固定套路(也就是固定模板,把各种信息展示给用户),LinkExtrator就非常适合整站抓取,为什 阅读全文
posted @ 2017-12-24 10:38
Charles.L
阅读(13415)
评论(1)
推荐(1)