2017 年 12月随笔档案 - Charles.L

python爬虫之scrapy文件下载

摘要：我们在写普通脚本的时候，从一个网站拿到一个文件的下载url，然后下载，直接将数据写入文件或者保存下来，但是这个需要我们自己一点一点的写出来，而且反复利用率并不高，为了不重复造轮子，scrapy提供很流畅的下载文件方式，只需要随便写写便可用了。 mat.py文件 pipelines.py settin 阅读全文

posted @ 2017-12-24 15:33 Charles.L 阅读(7462) 评论(0) 推荐(0)

python爬虫scrapy的LinkExtractor

摘要：使用背景：我们通常在爬去某个网站的时候都是爬去每个标签下的某些内容，往往一个网站的主页后面会包含很多物品或者信息的详细的内容，我们只提取某个大标签下的某些内容的话，会显的效率较低，大部分网站的都是按照固定套路（也就是固定模板，把各种信息展示给用户），LinkExtrator就非常适合整站抓取，为什阅读全文

posted @ 2017-12-24 10:38 Charles.L 阅读(13416) 评论(1) 推荐(1)

python爬虫之多线程、多进程、GIL锁

摘要：背景：我们知道多线程要比多进程效率更高，因为线程存在于进程之内，打开一个进程的话，首先需要开辟内存空间，占用内存空间比线程大。这样想也不怪，比如一个进程用10MB，开10个进程就得100MB的内存空间。但是我们开线程的话，只需要开通一个进程，在进程里面再开10个线程，这样的话内存空间只需要10MB 阅读全文

posted @ 2017-12-08 10:36 Charles.L 阅读(913) 评论(0) 推荐(0)

python爬虫之爬虫性能篇

摘要：一、首先想到的是for循环，单线程爬取每个url，但是如果有url出现了问题，后面的url就得等，性能低。二、我们考虑线程池的问题，下面我们定义了线程池里面最多10个任务，也就是说最多同一时间只能有10个爬行任务，这样的话就是自己干自己的互相不影响，加上主线程的话是n+1个线程，缺点也很明显，耗时阅读全文

posted @ 2017-12-04 22:33 Charles.L 阅读(1155) 评论(0) 推荐(0)

python爬虫scrapy之rules的基本使用

摘要：Link Extractors Link Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象｡ Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extr 阅读全文

posted @ 2017-12-04 11:25 Charles.L 阅读(7740) 评论(0) 推荐(0)

Charles.L

人生苦短

12 2017 档案

公告