2017 年 11月 14 日随笔档案 - SeverusZ

2017年11月14日

摘要：设计思路入下：以爬取豆瓣图书为例： 1.分两个数据库，第一个用于只用于存放抓取下来的所有图书 url (ulr_list)；第二个则储存当前所爬到的url (url_now)； 2.在抓取过程中在第二个数据库写入已爬过的页面的所有url； 3.若抓取中断，则第二个库中的 url应为第一个库的子集；阅读全文

posted @ 2017-11-14 14:47 SeverusZ 阅读(453) 评论(0) 推荐(0)

severusz

公告