爬虫 - 随笔分类 - pywjh

scrapy——9 Scrapy 设置随机 User-Agent

摘要：Scrapy 设置随机 User-Agent 方式一：在每个 Spider中设置（针对单个Spider） class TencentSpider(scrapy.Spider): name = 'tencent' allowed_domains = ['hr.tencent.com'] headers 阅读全文

posted @ 2021-02-08 10:30 pywjh 阅读(262) 评论(0) 推荐(0)

scrapy——8 scrapyd使用

摘要：scrapy——8 scrapyd使用什么是scrapyd？ scrapyd是运行scrapy爬虫的服务程序，它支持以http命令方式发布、删除、启动、停止爬虫程序。而且scrapyd可以同时管理多个爬虫，每个爬虫还可以有多个版本。特点： scrapyd官方文档：https://scrapyd. 阅读全文

posted @ 2018-11-24 19:21 pywjh 阅读(870) 评论(0) 推荐(0)

代理池——代理采集，测试，保存和接口使用

摘要：代理池的设置主要有四部 1.1先设置需要获取的代理的网站和解析规则 config.py 1.2 设置数据解析的方法 Parser.py 1.3 主程序中调用他们proxy_pool.py from Parser import Parser_response # 解析过程 2代理的检测 3 数据的存储阅读全文

posted @ 2018-11-20 17:20 pywjh 阅读(895) 评论(0) 推荐(0)

scrapy——7 scrapy-redis分布式爬虫，用药助手实战，Boss直聘实战，阿布云代理设置

摘要：scrapy——7 什么是scrapy-redis 怎么安装scrapy-redis scrapy-redis常用配置文件 scrapy-redis键名介绍实战-利用scrapy-redis分布式爬取用药助手网站实战-利用scrapy-redis分布式爬取Boss直聘网站如何使用代理什么是s 阅读全文

posted @ 2018-11-17 20:21 pywjh 阅读(1146) 评论(0) 推荐(0)

python爬虫数据解析的四种不同选择器Xpath，Beautiful Soup，pyquery，re

摘要：这里主要是做一个关于数据爬取以后的数据解析功能的整合，方便查阅，以防混淆主要讲到的技术有Xpath，BeautifulSoup，PyQuery，re（正则）首先举出两个作示例的代码，方便后面举例解析之前需要先将html代码转换成相应的对象，各自的方法如下： Xpath： BeautifulSo 阅读全文

posted @ 2018-11-16 19:56 pywjh 阅读(2160) 评论(0) 推荐(0)

Scrapy——6 APP抓包—scrapy框架下载图片

摘要：Scrapy——6 怎样进行APP抓包？ 1.连接网络安装fiddler，并且进行配置： Tools >> options >> connections >> 勾选 allow remote computers to connect 查看本机ip地址：在cmd窗口中，输入 ipconfig ，查阅读全文

posted @ 2018-11-13 13:18 pywjh 阅读(879) 评论(0) 推荐(0)

Scrapy——5 下载中间件常用函数、scrapy怎么对接selenium、常用的Setting内置设置有哪些

摘要：Scrapy——5 （Downloader Middleware）下载中间件常用函数有哪些 Scrapy怎样对接Selenium 设置setting.py里的DOWNLOADER_MIDDLIEWARES，添加自己编写的下载中间件类常用的Setting内置设置有哪些详情可以参考https://s 阅读全文

posted @ 2018-11-12 11:08 pywjh 阅读(587) 评论(0) 推荐(0)

scrapy——4 —反爬措施—logging—重要参数—POST请求发送实战

摘要：scrapy——4 动态的设置User-Agent（随即切换User-Agent，模拟不同的用户的浏览器信息）禁用Cookies（也就是不启用cookies middleware，不向Server发送cookies的使用发现爬虫行为）可以通过COOKIES_ENABLED控制CookiesMidd 阅读全文

posted @ 2018-11-11 16:55 pywjh 阅读(263) 评论(0) 推荐(0)

scrapy——3 crawlSpider——爱问

摘要：scrapy——3 crawlSpider crawlSpider 爬取一般网站常用的爬虫类。其定义了一些规则(rule)来提供跟进link的方便的机制。也许该spider并不是完全适合您的特定网站或项目，但其对很多情况都使用。因此您可以以其为起点，根据需求修改部分方法。当然您也可以实现自己的sp 阅读全文

posted @ 2018-11-10 18:38 pywjh 阅读(240) 评论(0) 推荐(0)

Scrapy——2 Scrapy shell——腾讯招聘信息—Mysql、MongoDB数据保存，相应间传递的meta字典

摘要：Scrapy——2 Scrapy shell 什么是Scrapy shell Scrapy shell终端是一个交互终端，我们可以在未启动spider的情况下尝试调试代码，也可以用来测试Xpath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取数据 Scrapy内置选择器：什么是sip 阅读全文

posted @ 2018-11-10 16:21 pywjh 阅读(356) 评论(0) 推荐(0)

初识Scrapy——1—scrapy简单学习，伯乐在线实战、json数据保存

摘要：Scrapy——1 目录什么是Scrapy框架？ Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。多用于抓取大量静态页面。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常方便。 Scrapy使阅读全文

posted @ 2018-11-10 13:02 pywjh 阅读(444) 评论(0) 推荐(0)

Pyspider爬虫简单框架——链家网

摘要：pyspider 目录 pyspider简单介绍 pyspider的使用实战 pyspider简单介绍一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器官方文档阅读全文

posted @ 2018-11-10 10:53 pywjh 阅读(950) 评论(0) 推荐(0)

Cookie的Python爬虫应用

摘要：Cookie的Python爬虫应用目录 Cookie是什么 Cookie的作用 Cookie的内容 domain属性 path属性 expires/Max-Age属性 Cookie的爬虫应用 Cookie是什么 Cookie，有时也用其复数形式 Cookies，英文是饼干的意思。指某些网站为了辨别阅读全文

posted @ 2018-10-17 17:30 pywjh 阅读(241) 评论(0) 推荐(0)

selenium等待

摘要：简介在selenium操作浏览器的过程中，每一次请求url，selenium都会等待页面加载完成以后，才会将操作权限在交给我们的程序。但是，由于ajax和各种JS代码的异步加载问题，当一个页面被加载到浏览器时，该页面内的元素可以在不同的时间点被加载，这就使得元素的定位变得十分困难，当元素不阅读全文

posted @ 2018-10-14 20:35 pywjh 阅读(250) 评论(0) 推荐(0)

selenium动作链

摘要：简介一般来说我们与页面的交互可以使用Webelement的方法来进行点击等操作。但是，有时候我们需要一些更复杂的动作，类似于拖动，双击，长按等等。这时候就需要用到我们的Action Chains（动作链）了。简例在导入动作链模块以后，需要声明一个动作链对象，在声明时将webdriver当作阅读全文

posted @ 2018-10-14 19:48 pywjh 阅读(1080) 评论(0) 推荐(0)

seleniumd对象的操作方法，属性，keys

摘要：这是通过find方法找到的页面元素，此对象提供了多种方法，让我们可以与页面元素进行交互，例如点击、清空。目录： 1. 方法 2. 属性 3. keys 方法 clear()清空如果当前元素中有文本，则清空文本 click()单击点击当前元素 get_attribute(name)获取对象属性阅读全文

posted @ 2018-10-14 16:33 pywjh 阅读(968) 评论(0) 推荐(0)

selenium常用操作，查找元素，操作Cookie，获取截图，获取窗口信息，切换，执行js代码

摘要：目录： 1. 常用操作 2. 查找元素 3. 操作Cookie 4. 获取截图 5. 获取窗口信息 6. 切换 7. 执行JS代码简介 selenium.webdriver.remote.webdriver.WebDriver 这个类其实是所有其他Webdriver的父类，例如Chrome We 阅读全文

posted @ 2018-10-14 15:03 pywjh 阅读(1928) 评论(0) 推荐(0)

Selenium启动项参数设置

摘要：再Selenium中使用不同的Webdriver可能会有不一样的方法，有些相同的操作会得到不同的结果，本文主要介绍的是Chrome()的使用方法。其他的Webdriver可以参考官方文档 Chrome Webdriver Options 简介这是一个Chrome的参数对象，再此对象中使用add 阅读全文

posted @ 2018-10-14 11:09 pywjh 阅读(15287) 评论(0) 推荐(0)

Selenium的安装和简单实用——PhantomJS安装

摘要：简介 Selenium是一个用于Web应用程序测试的工具。 Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Firefox，Safari，Chrome，Opera等。这个工具的主要功能包括：测试与浏览器的兼容性——测试你的应阅读全文

posted @ 2018-10-14 10:00 pywjh 阅读(1466) 评论(0) 推荐(0)

图像处理技巧

摘要：验证码大多是数字、字母的组合，国内也有使用汉字的。在这个基础上增加噪点、干扰线、变形、重叠、不同字体颜色等方法来增加识别难度。相应的，验证码识别大体可以分为下面几个步骤灰度处理增加对比度(可选) 二值化降噪倾斜校正分割字符建立训练库识别灰度化像素点是最小的图像单元，一张图片由阅读全文

posted @ 2018-10-12 16:37 pywjh 阅读(579) 评论(0) 推荐(0)

pywjh

懦夫从未启程，弱者死于途中

随笔分类 - 爬虫

公告