会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
COREY
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
下一页
2018年12月24日
分布式爬虫基于scrapy
摘要: 1.概念:多台机器上可以执行同一个爬虫程序,实现网站数据的分布爬取。 2.原生的scrapy 是不可以实现分布式爬虫? a) 调度器无法共享 b) 管道无法共享 3. scrapy-redis 组件:专门为scrapy 开发的一套组件。该组件可以让scrapy 实现分布式 a) 下载:pip ins
阅读全文
posted @ 2018-12-24 17:21 Corey0606
阅读(222)
评论(0)
推荐(0)
2018年12月21日
nginx wsgi django 建站配置最终版
摘要: 服务器配置环境centos7 python3: 见web标签中安装方法 1.安装各类基础模块 (为centos系统增加编译功能) (安装这些模块都是为了成功编译安装python3,防止出现各种异常) (安装这个模块是为了让uwsig支持使用“-x"选项,能通过xml文件启动项目) 2.给python
阅读全文
posted @ 2018-12-21 13:52 Corey0606
阅读(385)
评论(0)
推荐(0)
scrapy crawlspider内置方法源码
摘要: rules: 有经验的同学都知道它是一个列表,存储的元素时Rule类的实例,其中每一个实例都定义了一种采集站点的行为。如果有多个rule都匹配同一个链接,那么位置下标最小的一个rule将会被使用。 __init__: 在源码中可以看到,它主要就是执行了_compile_rules方法,这边暂时不讲。
阅读全文
posted @ 2018-12-21 09:24 Corey0606
阅读(349)
评论(0)
推荐(0)
2018年12月20日
redis数据的安装以及基本使用方法
摘要: http://www.runoob.com/redis/redis-install.html
阅读全文
posted @ 2018-12-20 11:10 Corey0606
阅读(100)
评论(0)
推荐(0)
2018年12月19日
CrawlSpider 用法(页面链接提取解析 例如:下一页)
摘要: 创建基于CrawlSpider的爬虫文件 scrapy genspider -t crawl 爬虫名称 链接 注意follow参数 例1:follow = False spider/chouti.py 执行结果 : 没有允许链接提取器继续在提取到的链接中继续作用 例2: follow = True
阅读全文
posted @ 2018-12-19 17:47 Corey0606
阅读(231)
评论(0)
推荐(0)
请求传参
摘要: 以爬取某电影网的电影列表以及子链接中的信息为例子 spiders/parndemo.py pipelines.py settings.py items.py
阅读全文
posted @ 2018-12-19 16:44 Corey0606
阅读(285)
评论(0)
推荐(0)
日志等级
摘要: 日志等级(种类): ERROR:错误 WARNING: 警告 INFO:一般信息 DEBUG:调试信息(默认) 指定输入某一中日志信息: settings.py中添加LOG_LEVEL = "ERROR" 将日志信息存储到制定文件中,而并非显示在终端里: settings.py: LOG_FILE
阅读全文
posted @ 2018-12-19 16:36 Corey0606
阅读(262)
评论(0)
推荐(0)
代理操作
摘要: 下载中间件作用: 拦截请求,可以将请求的ip进行更换 流程: 1.下载中间件类的自制定 a) object b) 重写process_request(self, request, spider)的方法 2.配置文件中进行下载中间价的开启 middlewares.py settings.py里开启中间
阅读全文
posted @ 2018-12-19 16:27 Corey0606
阅读(130)
评论(0)
推荐(0)
COOKIE操作
摘要: import scrapy class CookiedemoSpider(scrapy.Spider): name = 'cookiedemo' # allowed_domains = ['www.douban.com'] start_urls = ['https://www.douban.com/accounts/login/'] def parse(se...
阅读全文
posted @ 2018-12-19 16:17 Corey0606
阅读(122)
评论(0)
推荐(0)
发起post请求
摘要: scrapy发起post请求的两种方式 一定要对start_requests方法进行重写 1.Request方法中给method属性复制成post 2.FormRequest()进行post请求的发送 方法1(不建议使用): 方法2(推荐用scrapy.FormRequest):
阅读全文
posted @ 2018-12-19 16:13 Corey0606
阅读(514)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
下一页
公告