随笔分类 -  爬虫

摘要:起因:工作中爬取页面遭遇521状态码 scrapy中遭遇521状态码,会被无视,而不会被爬虫处理。 通过F12开发者工具 可知 通过在下载器中间件的查看,可以得知是可以在process_response中获取response.text 实际上是js代码,一段不规则加密代码和一段可读代码。 通过将这段 阅读全文
posted @ 2019-12-05 13:47 爱学习的红领巾 阅读(2692) 评论(0) 推荐(0)
摘要:为了方便使用scrapy JSON api 而将其进行包装 关于egg包的上传,则需要在本文件所处目录创建一个eggs文件夹,将egg格式文件放入即可 阅读全文
posted @ 2019-10-16 14:39 爱学习的红领巾 阅读(413) 评论(0) 推荐(0)
摘要:scrapy项目默认结构 一、scrapy 命令行 - scrapy.cfg 该文件可以设置项目的python模块名称 默认 [settings] default = myproject.settings 多个项目共享根目录 通过使用SCRAPY_PROJECT指定使用的项目 1.项目的创建 1)s 阅读全文
posted @ 2019-09-25 15:13 爱学习的红领巾 阅读(174) 评论(0) 推荐(0)
摘要:项目1: 基于搜狗微信公众号的关键字搜索 from selenium import webdriver import os from bs4 import BeautifulSoup from selenium.webdriver.support.ui import WebDriverWait fr 阅读全文
posted @ 2019-07-17 20:08 爱学习的红领巾 阅读(224) 评论(0) 推荐(0)
摘要:目录 1.项目1 2.项目2 3.项目3 4.项目4 阅读全文
posted @ 2019-07-09 19:56 爱学习的红领巾 阅读(132) 评论(0) 推荐(0)
摘要:一、读取图像数据 1. 使用PIL读取图像 Python Imaging Library中包含很多库,常用的是其中的Image,通过使用其中的open方法来读取图像,用法如下: 其中关键的方法是open,其中的参数包括两个: file:文件对象名称,可以是文件名,也可以是图像文件字符串。 mode: 阅读全文
posted @ 2019-06-28 09:50 爱学习的红领巾 阅读(476) 评论(0) 推荐(0)
摘要:1.调度器 利用队列实现调度器功能 2.引擎 3.爬虫对象 4.爬虫进程 爬虫的实例化,和爬取工作的开启 5.Request 用于存储爬虫每一个url与其对应的处理函数。 6.main 7.spider 爬虫类格式,parse为回调函数,后续还能继续添加回调函数 阅读全文
posted @ 2019-04-28 10:04 爱学习的红领巾 阅读(225) 评论(0) 推荐(0)
摘要:简介 Twisted是用Python实现的基于事件驱动的网络引擎框架。Twisted诞生于2000年初,在当时的网络游戏开发者看来,无论他们使用哪种语言,手中都鲜有可兼顾扩展性及跨平台的网络库。Twisted的作者试图在当时现有的环境下开发游戏,这一步走的非常艰难,他们迫切地需要一个可扩展性高、基于 阅读全文
posted @ 2019-04-22 09:13 爱学习的红领巾
摘要:针对pipelines的扩展 针对爬虫中间件的扩展 针对下载中间件的扩展 信号 url去重扩展 代理扩展 Https访问证书扩展 阅读全文
posted @ 2019-04-09 16:46 爱学习的红领巾
摘要:1.介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Servi 阅读全文
posted @ 2019-04-09 16:31 爱学习的红领巾 阅读(174) 评论(0) 推荐(0)
摘要:1.简单的介绍 pyspider是由国人binux编写的强大的网络爬虫系统,其GitHub地址为 https://github.com/binux/pyspider 官方文档地址为 http://docs.pyspider.org/ 1)基本功能 ♢ 提供方便易用的WebUI系统,可视化编写和调试爬 阅读全文
posted @ 2019-04-09 16:12 爱学习的红领巾 阅读(510) 评论(0) 推荐(0)
摘要:Splash 是一个JavaScript渲染服务,是一个带有HTTP API 的轻量级浏览器,同时它对接了Python中Twisted和QT库。 1.功能介绍 1)异步方法处理多个网页渲染过程; 2)获取渲染后的页面的源代码或截图; 3)通过关闭图片渲染或者使用Adblock规则来加快页面渲染速度; 阅读全文
posted @ 2019-04-08 10:37 爱学习的红领巾 阅读(345) 评论(0) 推荐(0)
摘要:Selenim 是一个自动化测试工具,可以利用它驱动浏览器执行特定的动作,如点击、下拉等操作,同时可以获取浏览器当前呈现的页面的源代码,做到可见及可爬 1.使用流程 1)声明浏览器对象 Selenium 支持非常多的浏览器,如Chrome、Firefox、Edge等,还有Android、BlackB 阅读全文
posted @ 2019-04-08 09:38 爱学习的红领巾 阅读(1409) 评论(0) 推荐(0)
摘要:XPath 1.常用规则 2.etree python 3.5以上没有了整合的库,通过from lxml import etree 调用,pycharm会报错,但是功能还是能够实现 etree.HTML() 对html文本进行初始化 etree.tostring() 输出修正后的代码 (bytes类 阅读全文
posted @ 2019-03-28 16:49 爱学习的红领巾 阅读(427) 评论(0) 推荐(0)
摘要:USER = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 阅读全文
posted @ 2019-03-28 13:56 爱学习的红领巾 阅读(333) 评论(0) 推荐(0)
摘要:1.requests 1.method 提交方式:post、get、put、delete、options、head、patch 2.url 访问地址 3.params 在url中传递的参数,GET params = {'k1':'v1','k2':'v2'} params = ‘k1=v1&k2=v 阅读全文
posted @ 2019-03-26 15:54 爱学习的红领巾 阅读(173) 评论(0) 推荐(0)