骑骡子赶猪  

2019年1月9日

摘要: 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。 今日概要 使用云打码平台识别验证码 知识点回顾 session的创建方式 session的作用 proxies参数的作用 高匿,透明代理的区别 今日内容 云打 阅读全文
posted @ 2019-01-09 21:43 骑骡子赶猪 阅读(65) 评论(0) 推荐(0) 编辑
 
摘要: 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据。因此,本次课程中会给大家详细介绍讲解三种聚焦爬虫中的数据解析方式。至此,我们的数据爬取的流程可以修改为: 今日 阅读全文
posted @ 2019-01-09 21:42 骑骡子赶猪 阅读(244) 评论(0) 推荐(0) 编辑
 
摘要: 今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 知识点回顾 xpath的解析流程 bs4的解析流程 常用xpath表达式 常用bs4解析方法 引入 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使 阅读全文
posted @ 2019-01-09 21:41 骑骡子赶猪 阅读(195) 评论(0) 推荐(0) 编辑
 
摘要: 一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方 阅读全文
posted @ 2019-01-09 21:36 骑骡子赶猪 阅读(801) 评论(0) 推荐(0) 编辑
 
摘要: 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 哪些语言可以实现爬虫 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.java:可以实现爬虫。java 阅读全文
posted @ 2019-01-09 21:36 骑骡子赶猪 阅读(107) 评论(0) 推荐(0) 编辑
 
摘要: 一、什么是Jupyter Notebook? 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍 简而言之,Jupyter Notebook是以网页的形式打开,可以在 阅读全文
posted @ 2019-01-09 21:34 骑骡子赶猪 阅读(111) 评论(0) 推荐(0) 编辑