爬虫 - 随笔分类 - 爱学习的红领巾

爬虫遭遇521状态码

摘要：起因：工作中爬取页面遭遇521状态码 scrapy中遭遇521状态码，会被无视，而不会被爬虫处理。通过F12开发者工具可知通过在下载器中间件的查看，可以得知是可以在process_response中获取response.text 实际上是js代码，一段不规则加密代码和一段可读代码。通过将这段阅读全文

posted @ 2019-12-05 13:47 爱学习的红领巾阅读(2695) 评论(0) 推荐(0)

scrapyd api

摘要：为了方便使用scrapy JSON api 而将其进行包装关于egg包的上传，则需要在本文件所处目录创建一个eggs文件夹，将egg格式文件放入即可阅读全文

posted @ 2019-10-16 14:39 爱学习的红领巾阅读(422) 评论(0) 推荐(0)

scrapy1

摘要：scrapy项目默认结构一、scrapy 命令行 - scrapy.cfg 该文件可以设置项目的python模块名称默认 [settings] default = myproject.settings 多个项目共享根目录通过使用SCRAPY_PROJECT指定使用的项目 1.项目的创建 1)s 阅读全文

posted @ 2019-09-25 15:13 爱学习的红领巾阅读(175) 评论(0) 推荐(0)

爬虫学习项目

摘要：项目1：基于搜狗微信公众号的关键字搜索 from selenium import webdriver import os from bs4 import BeautifulSoup from selenium.webdriver.support.ui import WebDriverWait fr 阅读全文

posted @ 2019-07-17 20:08 爱学习的红领巾阅读(227) 评论(0) 推荐(0)

爬虫从入门到放弃学习项目目录

摘要：目录 1.项目1 2.项目2 3.项目3 4.项目4 阅读全文

posted @ 2019-07-09 19:56 爱学习的红领巾阅读(135) 评论(0) 推荐(0)

图像视频处理

摘要：一、读取图像数据 1. 使用PIL读取图像 Python Imaging Library中包含很多库，常用的是其中的Image，通过使用其中的open方法来读取图像，用法如下：其中关键的方法是open，其中的参数包括两个： file：文件对象名称，可以是文件名，也可以是图像文件字符串。 mode：阅读全文

posted @ 2019-06-28 09:50 爱学习的红领巾阅读(481) 评论(0) 推荐(0)

爬虫之进阶基于twisted实现自制简易scrapy框架（便于对scrapy源码的理解）

摘要：1.调度器利用队列实现调度器功能 2.引擎 3.爬虫对象 4.爬虫进程爬虫的实例化，和爬取工作的开启 5.Request 用于存储爬虫每一个url与其对应的处理函数。 6.main 7.spider 爬虫类格式，parse为回调函数，后续还能继续添加回调函数阅读全文

posted @ 2019-04-28 10:04 爱学习的红领巾阅读(229) 评论(0) 推荐(0)

爬虫之进阶 twisted

摘要：简介 Twisted是用Python实现的基于事件驱动的网络引擎框架。Twisted诞生于2000年初，在当时的网络游戏开发者看来，无论他们使用哪种语言，手中都鲜有可兼顾扩展性及跨平台的网络库。Twisted的作者试图在当时现有的环境下开发游戏，这一步走的非常艰难，他们迫切地需要一个可扩展性高、基于阅读全文

posted @ 2019-04-22 09:13 爱学习的红领巾

爬虫之scrapy扩展

摘要：针对pipelines的扩展针对爬虫中间件的扩展针对下载中间件的扩展信号 url去重扩展代理扩展 Https访问证书扩展阅读全文

posted @ 2019-04-09 16:46 爱学习的红领巾

爬虫之scrapy入门

摘要：1.介绍 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Servi 阅读全文

posted @ 2019-04-09 16:31 爱学习的红领巾阅读(176) 评论(0) 推荐(0)

爬虫之pyspider

摘要：1.简单的介绍 pyspider是由国人binux编写的强大的网络爬虫系统，其GitHub地址为 https://github.com/binux/pyspider 官方文档地址为 http://docs.pyspider.org/ 1）基本功能 ♢ 提供方便易用的WebUI系统，可视化编写和调试爬阅读全文

posted @ 2019-04-09 16:12 爱学习的红领巾阅读(516) 评论(0) 推荐(0)

爬虫之Splash

摘要：Splash 是一个JavaScript渲染服务，是一个带有HTTP API 的轻量级浏览器，同时它对接了Python中Twisted和QT库。 1.功能介绍 1）异步方法处理多个网页渲染过程； 2）获取渲染后的页面的源代码或截图； 3）通过关闭图片渲染或者使用Adblock规则来加快页面渲染速度；阅读全文

posted @ 2019-04-08 10:37 爱学习的红领巾阅读(351) 评论(0) 推荐(0)

爬虫之Selenium 动态渲染页面爬取

摘要：Selenim 是一个自动化测试工具，可以利用它驱动浏览器执行特定的动作，如点击、下拉等操作，同时可以获取浏览器当前呈现的页面的源代码，做到可见及可爬 1.使用流程 1）声明浏览器对象 Selenium 支持非常多的浏览器，如Chrome、Firefox、Edge等，还有Android、BlackB 阅读全文

posted @ 2019-04-08 09:38 爱学习的红领巾阅读(1420) 评论(0) 推荐(0)

爬虫 2 XPath 和 pyquery

摘要：XPath 1.常用规则 2.etree python 3.5以上没有了整合的库，通过from lxml import etree 调用，pycharm会报错，但是功能还是能够实现 etree.HTML() 对html文本进行初始化 etree.tostring() 输出修正后的代码 (bytes类阅读全文

posted @ 2019-03-28 16:49 爱学习的红领巾阅读(433) 评论(0) 推荐(0)

爬虫客户端模拟

摘要：USER = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 阅读全文

posted @ 2019-03-28 13:56 爱学习的红领巾阅读(341) 评论(0) 推荐(0)

爬虫 1 requests 、beautifulsoup

摘要：1.requests 1.method 提交方式：post、get、put、delete、options、head、patch 2.url 访问地址 3.params 在url中传递的参数，GET params = {'k1':'v1','k2':'v2'} params = ‘k1=v1&k2=v 阅读全文

posted @ 2019-03-26 15:54 爱学习的红领巾阅读(175) 评论(0) 推荐(0)

爱学习的红领巾

随笔分类 - 爬虫

公告