爬虫 - 随笔分类 - 江湖有梦

11 提升爬虫效率和反扒

摘要：提升scrapy爬取数据的效率增加并发：默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。降低日志级别：在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使阅读全文

posted @ 2020-08-07 08:48 江湖有梦阅读(188) 评论(0) 推荐(0)

10 分布式爬虫

摘要：简介原来scrapy的Scheduler维护的是本机的任务队列（存放Request对象及其回调函数等信息）+本机的去重队列（存放访问过的url地址）分布式爬取的关键： 1、共享队列 2、重写Scheduler，让其无论是去重还是任务都去访问共享队列 3、为Scheduler定制去重规则（利用re 阅读全文

posted @ 2020-08-06 19:13 江湖有梦阅读(133) 评论(0) 推荐(0)

09 scrapy的中间件

摘要：scrapy的中间件简介 1 都写在middlewares.py 2 爬虫中间件 3 下载中间件 4 要生效，一定要配置，配置文件下载中间件：下载中间件的用途 1、在process——request内，自定义下载，不用scrapy的下载 2、对请求进行二次加工，比如设置请求头设置cookie 阅读全文

posted @ 2020-08-06 19:12 江湖有梦阅读(103) 评论(0) 推荐(0)

08 scrapy框架

摘要：scrapy介绍通用的网络爬虫框架架构介绍（框架）一、scrapy执行流程五大组件 -引擎(EGINE)：大总管，负责控制数据的流向 -调度器(SCHEDULER)：由它来决定下一个要抓取的网址是什么，去重 -下载器(DOWLOADER)：用于下载网页内容, 并将网页内容返回给EGINE，阅读全文

posted @ 2020-08-06 14:49 江湖有梦阅读(133) 评论(0) 推荐(0)

07 selenium的使用

摘要：selenium 为了解决requests无法直接执行JavaScript代码的问题安装： pip3 install selenium 浏览器的驱动： ps：需要下载对应版本的浏览器 http://npm.taobao.org/mirrors/chromedriver/ 84.0.4147.105 阅读全文

posted @ 2020-08-05 16:14 江湖有梦阅读(217) 评论(0) 推荐(0)

06 xpath选择器

摘要：xpath xpath: XPath 是一门在 XML 文档中查找信息的语言三个关键： / 从根节点选取。 // 不管位置，直接找 /@属性名文本内容： doc=''' <html> <head> <base href='http://example.com/' /> <title>Exampl 阅读全文

posted @ 2020-08-05 16:12 江湖有梦阅读(142) 评论(0) 推荐(0)

05 验证码的破解——打码平台

摘要：打码平台一、申请注册二、登录充值三、下载对应的sdk（python的） ps：这里我用了超级鹰 #!/usr/bin/env python # coding:utf-8 import requests from hashlib import md5 class Chaojiying_Clien 阅读全文

posted @ 2020-08-05 16:11 江湖有梦阅读(363) 评论(0) 推荐(0)

04 代理池的搭建

摘要：代理池搭建一、直接从git上下载免费开源的代码 git clone git@github.com:jhao104/proxy_pool.git 二、打开修改配置 reids地址修改三、启动爬虫 python proxyPool.py schedule 四、启动服务 python3 proxyPo 阅读全文

posted @ 2020-08-05 16:10 江湖有梦阅读(232) 评论(0) 推荐(0)

03 bs4的使用

摘要：bs4的使用一、安装 pip3 install beautifulsoup4 二、使用方法这是我们需要解析的内容 html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p id="my_p" c 阅读全文

posted @ 2020-08-05 16:09 江湖有梦阅读(93) 评论(0) 推荐(0)

02 requests模块

摘要：requests模块的使用一、安装 pip3 install requests 二、使用方法 2.1 get请求 header = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, li 阅读全文

posted @ 2020-08-05 15:06 江湖有梦阅读(289) 评论(0) 推荐(0)

01 什么是爬虫

摘要：爬虫是什么 1、什么是互联网？互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，像一张网一样。 2、互联网建立的目的？互联网的核心价值在于数据的共享/传递：数据是存放于一台台计算机上的，而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递，否则你阅读全文

posted @ 2020-08-03 15:16 江湖有梦阅读(631) 评论(0) 推荐(0)

随笔分类 - 爬虫

公告