文章分类 -  爬虫

摘要:常见的打码平台 云打码:http://www.yundama.com/ 能够解决通用的验证码识别 极验验证码智能识别辅助:http://jiyandoc.c2567.com/ 能够解决复杂验证码的识别 阅读全文
posted @ 2019-11-13 19:19 阿磊小哥哥呀 阅读(178) 评论(0) 推荐(0)
摘要:PhantomJS的介绍 PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript 下载地址:http://phantomjs.org/download.html Chromedriver的介绍 Chromedrive 阅读全文
posted @ 2019-11-13 19:18 阿磊小哥哥呀 阅读(97) 评论(0) 推荐(0)
摘要:使用线程池实现爬虫的具体实现 # coding=utf-8 import requests from lxml import etree from queue import Queue from multiprocessing.dummy import Pool import time class 阅读全文
posted @ 2019-11-13 19:16 阿磊小哥哥呀 阅读(120) 评论(0) 推荐(0)
摘要:1. lxml的认识 安装方式:pip install lxml 2. lxml的使用 2.1 lxml模块的入门使用 导入lxml 的 etree 库 (导入没有提示不代表不能用) `from lxml import etree` 利用etree.HTML,将字符串转化为Element对象,Ele 阅读全文
posted @ 2019-11-13 19:13 阿磊小哥哥呀 阅读(101) 评论(0) 推荐(0)
摘要:1. 为什么要学习xpath和lxml lxml是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath,来快速的定位特定元素以及获取节点信息 2. 什么是xpath XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言,可用来在 阅读全文
posted @ 2019-11-13 19:09 阿磊小哥哥呀 阅读(125) 评论(0) 推荐(0)
摘要:json数据格式化方法 在preview中观察 其中: 红色方框部分表示json中的键 蓝色方框部分由于是个列表,展开后,下面的数字表示列表中对应位置的值 在线解析工具进行解析 比如:https://www.bejson.com/ pycharm进行reformat code 在pycharm中新建 阅读全文
posted @ 2019-11-13 19:05 阿磊小哥哥呀 阅读(297) 评论(0) 推荐(0)
摘要:结构化数据:json,xml等 处理方式:直接转化为python类型 非结构化数据:HTML 处理方式:正则表达式、xpath 阅读全文
posted @ 2019-11-13 19:03 阿磊小哥哥呀 阅读(141) 评论(0) 推荐(0)
摘要:观察按钮的绑定js事件 通过点击按钮,然后点击Event Listener,部分网站可以找到绑定的事件,对应的,只需要点击即可跳转到js的位置 通过search all file 来搜索 部分网站的按钮可能并没有绑定js事件监听,那么这个时候可以通过搜索请求中的关键字来找到js的位置,比如livec 阅读全文
posted @ 2019-11-13 19:02 阿磊小哥哥呀 阅读(432) 评论(0) 推荐(0)
摘要:retrying模块的使用、 retrying模块的地址:https://pypi.org/project/retrying/ retrying 模块的使用 使用retrying模块提供的retry模块 通过装饰器的方式使用,让被装饰的函数反复执行 retry中可以传入参数stop_max_atte 阅读全文
posted @ 2019-11-13 18:59 阿磊小哥哥呀 阅读(742) 评论(0) 推荐(0)
摘要:1 使用requests处理cookie相关的请求 1.1 回顾cookie和session的区别 cookie数据存放在客户的浏览器上,session数据放在服务器上。 cookie不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗。 session会在一定时间内保存在服务器上 阅读全文
posted @ 2019-11-13 18:57 阿磊小哥哥呀 阅读(445) 评论(0) 推荐(0)
摘要:为什么要使用代理 让服务器以为不是同一个客户端在请求 防止我们的真实地址被泄露,防止被追究 理解使用代理的过程 理解正向代理和反向代理的区别 通过上图可以看出: 正向代理:对于浏览器知道服务器的真实地址,例如VPN 反向代理:浏览器不知道服务器的真实地址,例如nginx 2.4 代理的使用 用法:  阅读全文
posted @ 2019-11-13 18:53 阿磊小哥哥呀 阅读(261) 评论(0) 推荐(0)
摘要:requests的作用 作用:发送网络请求,返回响应数据 中文文档 : http://docs.python-requests.org/zh_CN/latest/index.html 通过观察文档来学习:如何使用requests来发送网络请求? requests模块发送简单的请求、获取响应 需求:通 阅读全文
posted @ 2019-11-13 18:49 阿磊小哥哥呀 阅读(120) 评论(0) 推荐(0)
摘要:1. 爬虫的分类 在上一小结中,我们介绍爬虫爬取到的数据用途的时候,给大家举了两个例子,其实就是两种不同类型的爬虫 根据被爬网站的数量的不同,我们把爬虫分为: 通用爬虫 :通常指搜索引擎的爬虫 聚焦爬虫 :针对特定网站的爬虫 2.爬虫的流程 请思考:如果自己要实现一个和百度新闻一样的网站需要 阅读全文
posted @ 2019-11-13 18:45 阿磊小哥哥呀 阅读(285) 评论(0) 推荐(0)