随笔分类 - 爬虫
摘要:起因:工作中爬取页面遭遇521状态码 scrapy中遭遇521状态码,会被无视,而不会被爬虫处理。 通过F12开发者工具 可知 通过在下载器中间件的查看,可以得知是可以在process_response中获取response.text 实际上是js代码,一段不规则加密代码和一段可读代码。 通过将这段
阅读全文
摘要:为了方便使用scrapy JSON api 而将其进行包装 关于egg包的上传,则需要在本文件所处目录创建一个eggs文件夹,将egg格式文件放入即可
阅读全文
摘要:scrapy项目默认结构 一、scrapy 命令行 - scrapy.cfg 该文件可以设置项目的python模块名称 默认 [settings] default = myproject.settings 多个项目共享根目录 通过使用SCRAPY_PROJECT指定使用的项目 1.项目的创建 1)s
阅读全文
摘要:项目1: 基于搜狗微信公众号的关键字搜索 from selenium import webdriver import os from bs4 import BeautifulSoup from selenium.webdriver.support.ui import WebDriverWait fr
阅读全文
摘要:目录 1.项目1 2.项目2 3.项目3 4.项目4
阅读全文
摘要:一、读取图像数据 1. 使用PIL读取图像 Python Imaging Library中包含很多库,常用的是其中的Image,通过使用其中的open方法来读取图像,用法如下: 其中关键的方法是open,其中的参数包括两个: file:文件对象名称,可以是文件名,也可以是图像文件字符串。 mode:
阅读全文
摘要:1.调度器 利用队列实现调度器功能 2.引擎 3.爬虫对象 4.爬虫进程 爬虫的实例化,和爬取工作的开启 5.Request 用于存储爬虫每一个url与其对应的处理函数。 6.main 7.spider 爬虫类格式,parse为回调函数,后续还能继续添加回调函数
阅读全文
摘要:简介 Twisted是用Python实现的基于事件驱动的网络引擎框架。Twisted诞生于2000年初,在当时的网络游戏开发者看来,无论他们使用哪种语言,手中都鲜有可兼顾扩展性及跨平台的网络库。Twisted的作者试图在当时现有的环境下开发游戏,这一步走的非常艰难,他们迫切地需要一个可扩展性高、基于
阅读全文
posted @ 2019-04-22 09:13
爱学习的红领巾
摘要:针对pipelines的扩展 针对爬虫中间件的扩展 针对下载中间件的扩展 信号 url去重扩展 代理扩展 Https访问证书扩展
阅读全文
posted @ 2019-04-09 16:46
爱学习的红领巾
摘要:1.介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Servi
阅读全文
摘要:1.简单的介绍 pyspider是由国人binux编写的强大的网络爬虫系统,其GitHub地址为 https://github.com/binux/pyspider 官方文档地址为 http://docs.pyspider.org/ 1)基本功能 ♢ 提供方便易用的WebUI系统,可视化编写和调试爬
阅读全文
摘要:Splash 是一个JavaScript渲染服务,是一个带有HTTP API 的轻量级浏览器,同时它对接了Python中Twisted和QT库。 1.功能介绍 1)异步方法处理多个网页渲染过程; 2)获取渲染后的页面的源代码或截图; 3)通过关闭图片渲染或者使用Adblock规则来加快页面渲染速度;
阅读全文
摘要:Selenim 是一个自动化测试工具,可以利用它驱动浏览器执行特定的动作,如点击、下拉等操作,同时可以获取浏览器当前呈现的页面的源代码,做到可见及可爬 1.使用流程 1)声明浏览器对象 Selenium 支持非常多的浏览器,如Chrome、Firefox、Edge等,还有Android、BlackB
阅读全文
摘要:XPath 1.常用规则 2.etree python 3.5以上没有了整合的库,通过from lxml import etree 调用,pycharm会报错,但是功能还是能够实现 etree.HTML() 对html文本进行初始化 etree.tostring() 输出修正后的代码 (bytes类
阅读全文
摘要:USER = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE
阅读全文
摘要:1.requests 1.method 提交方式:post、get、put、delete、options、head、patch 2.url 访问地址 3.params 在url中传递的参数,GET params = {'k1':'v1','k2':'v2'} params = ‘k1=v1&k2=v
阅读全文

浙公网安备 33010602011771号