会员
众包
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
南啾
博客园
首页
新随笔
联系
订阅
管理
增量式爬虫
概念: 监测网站数据更新的情况,只会爬取网站最新更新出来的数据
分析:
指定一个起始url
基于CrawlSpider获取其他页码链接
基于Rule将其他页码链接进行请求
从每一个页码对应的页面源码中解析出每一个电影详情页的url
核心:检测电影详情页的url之前有没有请求过
将爬取过的电影详情页的url进行存储,存储到redis的set数据结构
对详情页的url发起请求,然后解析出电影的名称和简介
进行持久化存储
posted @
2020-06-01 17:12
南啾
阅读(
108
) 评论(
0
)
编辑
收藏
举报
会员力量,点亮园子希望
刷新页面
返回顶部
公告