随笔分类 - 爬虫
摘要:提升scrapy爬取数据的效率 增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 降低日志级别: 在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使
阅读全文
摘要:简介 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 分布式爬取的关键: 1、共享队列 2、重写Scheduler,让其无论是去重还是任务都去访问共享队列 3、为Scheduler定制去重规则(利用re
阅读全文
摘要:scrapy的中间件简介 1 都写在middlewares.py 2 爬虫中间件 3 下载中间件 4 要生效,一定要配置,配置文件 下载中间件: 下载中间件的用途 1、在process——request内,自定义下载,不用scrapy的下载 2、对请求进行二次加工,比如 设置请求头 设置cookie
阅读全文
摘要:scrapy介绍 通用的网络爬虫框架 架构介绍(框架) 一、scrapy执行流程 五大组件 -引擎(EGINE):大总管,负责控制数据的流向 -调度器(SCHEDULER):由它来决定下一个要抓取的网址是什么,去重 -下载器(DOWLOADER):用于下载网页内容, 并将网页内 容返回给EGINE,
阅读全文
摘要:selenium 为了解决requests无法直接执行JavaScript代码的问题 安装: pip3 install selenium 浏览器的驱动: ps:需要下载对应版本的浏览器 http://npm.taobao.org/mirrors/chromedriver/ 84.0.4147.105
阅读全文
摘要:xpath xpath: XPath 是一门在 XML 文档中查找信息的语言 三个关键: / 从根节点选取。 // 不管位置,直接找 /@属性名 文本内容: doc=''' <html> <head> <base href='http://example.com/' /> <title>Exampl
阅读全文
摘要:打码平台 一、申请注册 二、登录充值 三、下载对应的sdk(python的) ps:这里我用了超级鹰 #!/usr/bin/env python # coding:utf-8 import requests from hashlib import md5 class Chaojiying_Clien
阅读全文
摘要:代理池搭建 一、直接从git上下载免费开源的代码 git clone git@github.com:jhao104/proxy_pool.git 二、打开修改配置 reids地址修改 三、启动爬虫 python proxyPool.py schedule 四、启动服务 python3 proxyPo
阅读全文
摘要:bs4的使用 一、安装 pip3 install beautifulsoup4 二、使用方法 这是我们需要解析的内容 html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p id="my_p" c
阅读全文
摘要:requests模块的使用 一、安装 pip3 install requests 二、使用方法 2.1 get请求 header = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, li
阅读全文
摘要:爬虫是什么 1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 2、互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你
阅读全文

浙公网安备 33010602011771号