摘要:
笔记-scrapy与twisted 笔记-scrapy与twisted Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码。 在任何情况下,都不要写阻塞的代码。阻塞的代码包括: 访问文件、数据库或者Web 产生新的进程并需要处理新进程的输出 阅读全文
posted @ 2018-05-22 23:22
木林森__𣛧
阅读(171)
评论(0)
推荐(0)
摘要:
文档-Linux IO模式详解 1. 概念说明 在进行解释之前,首先要说明几个概念:- 用户空间和内核空间- 进程切换- 进程的阻塞- 文件描述符- 缓存 I/O 1.1 用户空间与内核空间 现在操作系统都是采用虚拟存储器,那么对32位操作系统而言,它的寻址空间(虚拟存储空间)为4G(2的32次方) 阅读全文
posted @ 2018-05-22 23:19
木林森__𣛧
阅读(112)
评论(0)
推荐(0)
摘要:
笔记-大规模爬虫实现逻辑,问题及解决办法 1. 简单爬虫的实现逻辑 第一步:爬取种子urls; 第二步:解析response,获得新的urls; 第三步:重复1、2步,达到指定条件后结束爬取。 2. 爬取100000或更多个网页的实现逻辑 如果仍然按上述方法处理,问题来了: 接下来一一讨论解决办法 阅读全文
posted @ 2018-05-22 15:50
木林森__𣛧
阅读(296)
评论(0)
推荐(0)

浙公网安备 33010602011771号