用python爬取数据时设计断点续存程序设计思路
设计思路入下:
以爬取豆瓣图书为例:
1.分两个数据库,第一个用于只用于存放抓取下来的所有图书 url (ulr_list);第二个则储存当前所爬到的url (url_now);
2.在抓取过程中在第二个数据库写入已爬过的页面的所有url;
3.若抓取中断,则第二个库中的 url应为第一个库的子集;
4.两个集合相减记得到还未抓取的url,可以继续抓取。
设计思路入下:
以爬取豆瓣图书为例:
1.分两个数据库,第一个用于只用于存放抓取下来的所有图书 url (ulr_list);第二个则储存当前所爬到的url (url_now);
2.在抓取过程中在第二个数据库写入已爬过的页面的所有url;
3.若抓取中断,则第二个库中的 url应为第一个库的子集;
4.两个集合相减记得到还未抓取的url,可以继续抓取。