文章分类 -  爬虫

爬虫之反爬机制及代理IP
摘要:反爬机制: robots.txt协议 UA检测、referer检测 数据加密 图片懒加载 ip检测 验证码识别 字体反爬虫 可以使用Python的urllib模块查看robots.txt from urllib import robotparser rp = robotparser.RobotFil 阅读全文
posted @ 2020-01-18 18:12 始终不够啊 阅读(580) 评论(0) 推荐(0)
爬虫之验证码处理(超级鹰打码平台的使用)
摘要:引入 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。 目录: 使用超级鹰打码平台识别验证码 知识点回顾 session的创建方式 session的作用 proxies参数的作用 高匿,透明代理的区别 超级鹰 阅读全文
posted @ 2020-01-17 17:06 始终不够啊 阅读(1329) 评论(0) 推荐(0)
爬虫之图片懒加载技术、selenium和PhantomJS
摘要:目录: 图片懒加载 selenium phantomJs 谷歌无头浏览器 知识点回顾 验证码处理流程 动态数据加载处理 一.图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- codin 阅读全文
posted @ 2020-01-16 17:55 始终不够啊 阅读(317) 评论(0) 推荐(0)
爬虫之三种数据解析方式
摘要:引入 回顾requests实现数据爬取的流程 指定url 基于requests模块发起请求 获取响应对象中的数据 进行持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而 阅读全文
posted @ 2020-01-15 17:50 始终不够啊 阅读(355) 评论(0) 推荐(0)
爬虫之Python自带的urllib库
摘要:一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 ''' #出版社爬取 import 阅读全文
posted @ 2020-01-14 22:26 始终不够啊 阅读(374) 评论(0) 推荐(0)
爬虫之requests模块
摘要:Requests 唯一的一个非转基因的 Python HTTP 库,虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests宣传是 “HTTP for Humans”,说明使用更简洁方便 目录: 基于request 阅读全文
posted @ 2020-01-13 22:14 始终不够啊 阅读(301) 评论(0) 推荐(0)
爬虫之fiddler的安装配置及移动端数据爬取
摘要:前言 随着移动市场的火热,各大平台都陆陆续续的推出了自己的移动端APP来拉拢吸引和便捷其广大的用户。那么在移动端的平台当时势必会出现大量有价值的信息和数据,那这些数据我们是否可以去享用一下呢?那么接下来就进入我们的移动端APP数据的爬虫中来吧。 目录: fiddler简介 手机APP抓包设置 fid 阅读全文
posted @ 2020-01-11 12:18 始终不够啊 阅读(278) 评论(0) 推荐(0)
爬虫之http和https协议
摘要:一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。 2.白话概念: HTTP协议就是服务器(Server)和客户端(Clie 阅读全文
posted @ 2020-01-10 19:07 始终不够啊 阅读(282) 评论(0) 推荐(0)
爬虫之相关基础概念
摘要:中国爬虫违法违规案例汇总: https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China 第一章 爬虫介绍 爬虫的分类 通用爬虫 聚焦爬虫 增量式爬虫 robots协议 反爬机制 反反爬策略 第二章 http和https协议 协 阅读全文
posted @ 2020-01-09 16:46 始终不够啊 阅读(154) 评论(0) 推荐(0)
postman插件的使用
摘要:一 简介 Postman是一款功能超级强大的用于发送 HTTP 请求的 Chrome插件 。做web页面开发和测试的人员应该是无人不晓无人不用!其主要特点特点:创建 + 测试:创建和发送任何的HTTP请求,请求可以保存到历史中再次执行Organize:使用Postman Collections为更有 阅读全文
posted @ 2019-11-11 15:31 始终不够啊
Python之爬虫
摘要:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 Requests 1 pip3 install requests 2 # 模拟浏览器发送请求 阅读全文
posted @ 2019-06-24 23:04 始终不够啊 阅读(237) 评论(0) 推荐(0)