随笔分类 -  爬虫

关于python爬虫方面的学习笔记
摘要:Scrapy 设置随机 User-Agent 方式一:在每个 Spider中设置(针对单个Spider) class TencentSpider(scrapy.Spider): name = 'tencent' allowed_domains = ['hr.tencent.com'] headers 阅读全文
posted @ 2021-02-08 10:30 pywjh 阅读(262) 评论(0) 推荐(0)
摘要:scrapy——8 scrapyd使用 什么是scrapyd? scrapyd是运行scrapy爬虫的服务程序,它支持以http命令方式发布、删除、启动、停止爬虫程序。而且scrapyd可以同时管理多个爬虫,每个爬虫还可以有多个版本。 特点: scrapyd官方文档:https://scrapyd. 阅读全文
posted @ 2018-11-24 19:21 pywjh 阅读(870) 评论(0) 推荐(0)
摘要:代理池的设置主要有四部 1.1先设置需要获取的代理的网站和解析规则 config.py 1.2 设置数据解析的方法 Parser.py 1.3 主程序中调用他们proxy_pool.py from Parser import Parser_response # 解析过程 2代理的检测 3 数据的存储 阅读全文
posted @ 2018-11-20 17:20 pywjh 阅读(895) 评论(0) 推荐(0)
摘要:scrapy——7 什么是scrapy-redis 怎么安装scrapy-redis scrapy-redis常用配置文件 scrapy-redis键名介绍 实战-利用scrapy-redis分布式爬取用药助手网站 实战-利用scrapy-redis分布式爬取Boss直聘网站 如何使用代理 什么是s 阅读全文
posted @ 2018-11-17 20:21 pywjh 阅读(1146) 评论(0) 推荐(0)
摘要:这里主要是做一个关于数据爬取以后的数据解析功能的整合,方便查阅,以防混淆 主要讲到的技术有Xpath,BeautifulSoup,PyQuery,re(正则) 首先举出两个作示例的代码,方便后面举例 解析之前需要先将html代码转换成相应的对象,各自的方法如下: Xpath: BeautifulSo 阅读全文
posted @ 2018-11-16 19:56 pywjh 阅读(2160) 评论(0) 推荐(0)
摘要:Scrapy——6 怎样进行APP抓包? 1.连接网络 安装fiddler,并且进行配置: Tools >> options >> connections >> 勾选 allow remote computers to connect 查看本机ip地址: 在cmd窗口中,输入 ipconfig ,查 阅读全文
posted @ 2018-11-13 13:18 pywjh 阅读(879) 评论(0) 推荐(0)
摘要:Scrapy——5 (Downloader Middleware)下载中间件常用函数有哪些 Scrapy怎样对接Selenium 设置setting.py里的DOWNLOADER_MIDDLIEWARES,添加自己编写的下载中间件类 常用的Setting内置设置有哪些 详情可以参考https://s 阅读全文
posted @ 2018-11-12 11:08 pywjh 阅读(587) 评论(0) 推荐(0)
摘要:scrapy——4 动态的设置User-Agent(随即切换User-Agent,模拟不同的用户的浏览器信息) 禁用Cookies(也就是不启用cookies middleware,不向Server发送cookies的使用发现爬虫行为)可以通过COOKIES_ENABLED控制CookiesMidd 阅读全文
posted @ 2018-11-11 16:55 pywjh 阅读(263) 评论(0) 推荐(0)
摘要:scrapy——3 crawlSpider crawlSpider 爬取一般网站常用的爬虫类。其定义了一些规则(rule)来提供跟进link的方便的机制。 也许该spider并不是完全适合您的特定网站或项目,但其对很多情况都使用。因此您可以以其为起点,根据需求修改部分方法。当然您也可以实现自己的sp 阅读全文
posted @ 2018-11-10 18:38 pywjh 阅读(240) 评论(0) 推荐(0)
摘要:Scrapy——2 Scrapy shell 什么是Scrapy shell Scrapy shell终端是一个交互终端,我们可以在未启动spider的情况下尝试调试代码,也可以用来测试Xpath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取数据 Scrapy内置选择器: 什么是sip 阅读全文
posted @ 2018-11-10 16:21 pywjh 阅读(356) 评论(0) 推荐(0)
摘要:Scrapy——1 目录 什么是Scrapy框架? Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。多用于抓取大量静态页面。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常方便。 Scrapy使 阅读全文
posted @ 2018-11-10 13:02 pywjh 阅读(444) 评论(0) 推荐(0)
摘要:pyspider 目录 pyspider简单介绍 pyspider的使用 实战 pyspider简单介绍 一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端, 强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器 官方文档 阅读全文
posted @ 2018-11-10 10:53 pywjh 阅读(950) 评论(0) 推荐(0)
摘要:Cookie的Python爬虫应用 目录 Cookie是什么 Cookie的作用 Cookie的内容 domain属性 path属性 expires/Max-Age属性 Cookie的爬虫应用 Cookie是什么 Cookie,有时也用其复数形式 Cookies,英文是饼干的意思。指某些网站为了辨别 阅读全文
posted @ 2018-10-17 17:30 pywjh 阅读(241) 评论(0) 推荐(0)
摘要:简介 在selenium操作浏览器的过程中,每一次请求url,selenium都会等待页面加载完成以后, 才会将操作权限在交给我们的程序。 但是,由于ajax和各种JS代码的异步加载问题,当一个页面被加载到浏览器时, 该页面内的元素可以在不同的时间点被加载,这就使得元素的定位变得十分困难, 当元素不 阅读全文
posted @ 2018-10-14 20:35 pywjh 阅读(250) 评论(0) 推荐(0)
摘要:简介 一般来说我们与页面的交互可以使用Webelement的方法来进行点击等操作。 但是,有时候我们需要一些更复杂的动作,类似于拖动,双击,长按等等。 这时候就需要用到我们的Action Chains(动作链)了。 简例 在导入动作链模块以后,需要声明一个动作链对象,在声明时将webdriver当作 阅读全文
posted @ 2018-10-14 19:48 pywjh 阅读(1080) 评论(0) 推荐(0)
摘要:这是通过find方法找到的页面元素,此对象提供了多种方法,让我们可以与页面元素进行交互,例如点击、清空。 目录: 1. 方法 2. 属性 3. keys 方法 clear()清空 如果当前元素中有文本,则清空文本 click()单击 点击当前元素 get_attribute(name)获取对象属性 阅读全文
posted @ 2018-10-14 16:33 pywjh 阅读(968) 评论(0) 推荐(0)
摘要:目录: 1. 常用操作 2. 查找元素 3. 操作Cookie 4. 获取截图 5. 获取窗口信息 6. 切换 7. 执行JS代码 简介 selenium.webdriver.remote.webdriver.WebDriver 这个类其实是所有其他Webdriver的父类, 例如Chrome We 阅读全文
posted @ 2018-10-14 15:03 pywjh 阅读(1928) 评论(0) 推荐(0)
摘要:再Selenium中使用不同的Webdriver可能会有不一样的方法,有些相同的操作会得到不同的结果, 本文主要介绍的是Chrome()的使用方法。 其他的Webdriver可以参考官方文档 Chrome Webdriver Options 简介 这是一个Chrome的参数对象,再此对象中使用add 阅读全文
posted @ 2018-10-14 11:09 pywjh 阅读(15287) 评论(0) 推荐(0)
摘要:简介 Selenium是一个用于Web应用程序测试的工具。 Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Firefox,Safari,Chrome,Opera等。 这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应 阅读全文
posted @ 2018-10-14 10:00 pywjh 阅读(1466) 评论(0) 推荐(0)
摘要:验证码大多是数字、字母的组合,国内也有使用汉字的。在这个基础上增加噪点、干扰线、变形、重叠、 不同字体颜色等方法来增加识别难度。 相应的,验证码识别大体可以分为下面几个步骤 灰度处理 增加对比度(可选) 二值化 降噪 倾斜校正分割字符 建立训练库 识别 灰度化 ​ 像素点是最小的图像单元,一张图片由 阅读全文
posted @ 2018-10-12 16:37 pywjh 阅读(579) 评论(0) 推荐(0)

回到顶部