SeverusZ

2017年11月14日

摘要：设计思路入下：以爬取豆瓣图书为例： 1.分两个数据库，第一个用于只用于存放抓取下来的所有图书 url (ulr_list)；第二个则储存当前所爬到的url (url_now)； 2.在抓取过程中在第二个数据库写入已爬过的页面的所有url； 3.若抓取中断，则第二个库中的 url应为第一个库的子集；阅读全文

posted @ 2017-11-14 14:47 SeverusZ 阅读(460) 评论(0) 推荐(0)

2017年11月10日

实现多进程爬虫的数据抓取

摘要：要实现多进程爬虫的数据抓取，要用到库multiprocessing并导入Pool: 接着导入进程池所有的程序会被放到进程池Pool()中并分配CPU。此处用到了map函数，map函数会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函阅读全文

posted @ 2017-11-10 09:59 SeverusZ 阅读(969) 评论(0) 推荐(0)

多进程&多线程

摘要：这里用一个比喻来解释这两个概念，我们把电脑比作一家餐厅，进程就是餐厅中的桌子，而线程就是桌子上吃饭的人。 1.单进程单线程：即只有一个人在一张桌子上吃饭； 2.单进程多线程：指在一张桌子上有多个人（大于一人）一起吃饭； 3.多进程单线程：指在多张桌子上每张桌子有一人同时吃饭； 4.多进程多线程：指在阅读全文

posted @ 2017-11-10 09:36 SeverusZ 阅读(190) 评论(0) 推荐(0)

公告