摘要: 一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 二.由易到难的爬虫程序: 1.爬取百 阅读全文
posted @ 2018-09-14 17:13 波晓张 阅读(4440) 评论(0) 推荐(1) 编辑
摘要: 一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方 阅读全文
posted @ 2018-09-14 11:54 波晓张 阅读(4025) 评论(0) 推荐(0) 编辑
摘要: 爬虫介绍 引入 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的应用还是从就业上。 我们都知道,当前我们所处的时代是大数据的时代,在大数据时代,要进行数据分析,首先 阅读全文
posted @ 2018-09-14 10:23 波晓张 阅读(3499) 评论(0) 推荐(2) 编辑