会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
severusz
博客园
首页
新随笔
联系
订阅
管理
2017年11月14日
用python爬取数据时设计断点续存程序设计思路
摘要: 设计思路入下: 以爬取豆瓣图书为例: 1.分两个数据库,第一个用于只用于存放抓取下来的所有图书 url (ulr_list);第二个则储存当前所爬到的url (url_now); 2.在抓取过程中在第二个数据库写入已爬过的页面的所有url; 3.若抓取中断,则第二个库中的 url应为第一个库的子集;
阅读全文
posted @ 2017-11-14 14:47 SeverusZ
阅读(449)
评论(0)
推荐(0)
公告