摘要: 大部分门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。 一. 云打码平台处理验证码的流程: 代码: 阅读全文
posted @ 2019-05-29 20:56 small_caier 阅读(458) 评论(0) 推荐(0)
摘要: 一. 基于requests模块的cookie操作 - cookie概念: 当用户通过浏览器访问一个域名的时候,访问的web服务器会给客户端发送数据,以保持web服务器与客户端之间的状态保持,这些数据就是cookie。 - cookie作用:我们在浏览器中,经常涉及到数据交换。Cookie是由HTTP 阅读全文
posted @ 2019-05-29 20:49 small_caier 阅读(641) 评论(0) 推荐(0)
摘要: 一.爬虫数据解析的流程 1.指定url 2.基于requests模块发起请求 3.获取响应中的数据 4.数据解析 5.进行持久化存储 二.解析方法 (1)正则解析 (2)bs4解析 (3)xpath解析 1. 正则解析 常用正则表达式 正则使用练习: 应用: 爬取糗事百科指定页面的糗图,并将其保存到 阅读全文
posted @ 2019-05-29 17:32 small_caier 阅读(572) 评论(0) 推荐(0)
摘要: 一. urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中就是urllib和urllib2。 二.requests库 - 安装 阅读全文
posted @ 2019-05-29 16:47 small_caier 阅读(1530) 评论(0) 推荐(0)