爬虫 - 文章分类 - 阿磊小哥哥呀

摘要：常见的打码平台云打码：http://www.yundama.com/ 能够解决通用的验证码识别极验验证码智能识别辅助：http://jiyandoc.c2567.com/ 能够解决复杂验证码的识别阅读全文

posted @ 2019-11-13 19:19 阿磊小哥哥呀阅读(179) 评论(0) 推荐(0)

摘要：PhantomJS的介绍 PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器，它会把网站加载到内存并执行页面上的 JavaScript 下载地址：http://phantomjs.org/download.html Chromedriver的介绍 Chromedrive 阅读全文

posted @ 2019-11-13 19:18 阿磊小哥哥呀阅读(98) 评论(0) 推荐(0)

通过线程池实现更快的爬虫

摘要：使用线程池实现爬虫的具体实现 # coding=utf-8 import requests from lxml import etree from queue import Queue from multiprocessing.dummy import Pool import time class 阅读全文

posted @ 2019-11-13 19:16 阿磊小哥哥呀阅读(121) 评论(0) 推荐(0)

lxml模块的学习

摘要：1. lxml的认识安装方式：pip install lxml 2. lxml的使用 2.1 lxml模块的入门使用导入lxml 的 etree 库 (导入没有提示不代表不能用) `from lxml import etree` 利用etree.HTML，将字符串转化为Element对象,Ele 阅读全文

posted @ 2019-11-13 19:13 阿磊小哥哥呀阅读(103) 评论(0) 推荐(0)

xpath的使用语法

摘要：1. 为什么要学习xpath和lxml lxml是一款高性能的 Python HTML/XML 解析器，我们可以利用XPath，来快速的定位特定元素以及获取节点信息 2. 什么是xpath XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在阅读全文

posted @ 2019-11-13 19:09 阿磊小哥哥呀阅读(126) 评论(0) 推荐(0)

爬虫数据提取之json

摘要：json数据格式化方法在preview中观察其中：红色方框部分表示json中的键蓝色方框部分由于是个列表，展开后，下面的数字表示列表中对应位置的值在线解析工具进行解析比如：https://www.bejson.com/ pycharm进行reformat code 在pycharm中新建阅读全文

posted @ 2019-11-13 19:05 阿磊小哥哥呀阅读(300) 评论(0) 推荐(0)

爬虫中数据的分类

摘要：结构化数据：json，xml等处理方式：直接转化为python类型非结构化数据：HTML 处理方式：正则表达式、xpath 阅读全文

posted @ 2019-11-13 19:03 阿磊小哥哥呀阅读(142) 评论(0) 推荐(0)

js分析之查看js的位置

摘要：观察按钮的绑定js事件通过点击按钮，然后点击Event Listener，部分网站可以找到绑定的事件，对应的，只需要点击即可跳转到js的位置通过search all file 来搜索部分网站的按钮可能并没有绑定js事件监听，那么这个时候可以通过搜索请求中的关键字来找到js的位置，比如livec 阅读全文

posted @ 2019-11-13 19:02 阿磊小哥哥呀阅读(440) 评论(0) 推荐(0)

requests超时参数retry的使用

摘要：retrying模块的使用、 retrying模块的地址：https://pypi.org/project/retrying/ retrying 模块的使用使用retrying模块提供的retry模块通过装饰器的方式使用，让被装饰的函数反复执行 retry中可以传入参数stop_max_atte 阅读全文

posted @ 2019-11-13 18:59 阿磊小哥哥呀阅读(756) 评论(0) 推荐(0)

requests模块处理cookie相关的请求，cookie架转换为字典

摘要：1 使用requests处理cookie相关的请求 1.1 回顾cookie和session的区别 cookie数据存放在客户的浏览器上，session数据放在服务器上。 cookie不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗。 session会在一定时间内保存在服务器上阅读全文

posted @ 2019-11-13 18:57 阿磊小哥哥呀阅读(449) 评论(0) 推荐(0)

requests模块添加代理

摘要：为什么要使用代理让服务器以为不是同一个客户端在请求防止我们的真实地址被泄露，防止被追究理解使用代理的过程理解正向代理和反向代理的区别通过上图可以看出：正向代理：对于浏览器知道服务器的真实地址，例如VPN 反向代理：浏览器不知道服务器的真实地址，例如nginx 2.4 代理的使用用法：阅读全文

posted @ 2019-11-13 18:53 阿磊小哥哥呀阅读(268) 评论(0) 推荐(0)

requests模块的入门使用

摘要：requests的作用作用：发送网络请求，返回响应数据中文文档： http://docs.python-requests.org/zh_CN/latest/index.html 通过观察文档来学习：如何使用requests来发送网络请求？ requests模块发送简单的请求、获取响应需求：通阅读全文

posted @ 2019-11-13 18:49 阿磊小哥哥呀阅读(124) 评论(0) 推荐(0)

爬虫的分类和爬虫的流程

摘要：1. 爬虫的分类在上一小结中，我们介绍爬虫爬取到的数据用途的时候，给大家举了两个例子，其实就是两种不同类型的爬虫根据被爬网站的数量的不同，我们把爬虫分为：通用爬虫：通常指搜索引擎的爬虫聚焦爬虫：针对特定网站的爬虫 2.爬虫的流程请思考：如果自己要实现一个和百度新闻一样的网站需要阅读全文

posted @ 2019-11-13 18:45 阿磊小哥哥呀阅读(286) 评论(0) 推荐(0)

阿磊小哥哥呀

文章分类 - 爬虫

公告