摘要: 有时候我们爬取数据跑了半天,突然报错了,例如网络中断,我们想继续爬取,不需程序从头开始爬取,可以采取下面的方案 要想程序继续从断开的位置爬取,最好的方案就是将每次爬取的url存储到数据库中,程序每爬取一个url判断数据库中是否存在存在说明爬取过了,跳过本次url,如果没有,那就证明没有爬取过,程序继 阅读全文
posted @ 2017-10-19 16:22 枫客&浪人 阅读(4825) 评论(0) 推荐(1) 编辑
摘要: 关于I/O多路复用(又被称为“事件驱动”),首先要理解的是,操作系统为你提供了一个功能,当你的某个socket可读或者可写的时候,它可以给你一个通知。这样当配合非阻塞的socket使用时,只有当系统通知我哪个描述符可读了,我才去执行read操作,可以保证每次read都能读到有效数据而不做纯返回-1和 阅读全文
posted @ 2017-10-19 11:39 枫客&浪人 阅读(211) 评论(0) 推荐(0) 编辑