North老师的爬虫课01
------------恢复内容开始------------
一、以下情况你有没有想过:
1.你是否在夜深人静的时候,内心骚动,想白嫖一些免费的正经电影视频。
2.你是否对百度文库vip付费感觉特别郁闷
3.你是否苦恼,过年前回家抢不到车票
等等(很多啊,我在这就不一一叙述了)
那如果我告诉你有一种技术可以帮你这些忙,你学还是不学。
二、什么是爬虫?
-就是通过编写程序,让其模拟浏览器上网,然后在互联网中抓取数据的过程。
-关键词抽取
-模拟:浏览器就是一个纯天然最原始的一个爬虫工具。
-抓取:
-抓取一整张的页面源码数据
-抓取一整张页面中的局部数据
B.爬虫的分类
-通用爬虫:
-要求我们爬取一整张页面源码数据
-聚焦爬虫
-要求爬取一张页面中的局部的数据
-聚焦爬虫一定是建立在通用爬虫的基础之上。
-增量式爬虫:
-用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据。
-分布式爬虫
-提高爬取效率的终极武器。
-反爬机制
-是作用数据,到门户网站中。如果网站不想让爬虫轻易爬取到数据,它可以制定相关的机制或者组织爬虫程序爬取其数据。
-反反爬策略
-是作用在爬虫程序中。我们爬虫可以制定相关的策略破解反爬机制从而爬取到相关的数据。
-第一个反爬机制
-robots协议(防君子不防小人)
-是一个纯文本的协议,协议中规定了该网站中哪些数据可以被哪些爬虫爬取,哪些不可以被爬取
-破解:
你自己主观性的不遵从该协议即可
三、工具安装
1.安装Anaconda
2.如何启动jupyter notebook
-
step1:配置好了环境变量,直接在终端中录入jupyter notebook 按下回车即可。
-
step2:没有配置环境变量,打开navigator,点击左上角的home选项,点击jupyter notebook图标下的lauch启动
-
-
通过以下方式在终端目录输入jupyter notebook按下回车即可
-jupyter notebook的基本使用
- 在终端中录入jupyter notebook 指令后,表示我们在本机中启动了一个服务,然后会自动打开你的默认浏览器。
-注意:你执行jupyter notebook指令的终端,可以进入到指定的目录中执行jupyter notebook指令后,则打开的浏览器显示的页面就是你当前对应目录的目录结构。
-你终端对应的目录结构就是你浏览器打开jupyter页面的根目录。
- new新建:
-python3:新建一个jupyter的源文件(重点)
-由cell组成,cell是一行可编辑框
-cell模式
-code:可以编写python代码
-code模式中的cell可以写一行或者多行代码
-特性:编写代码的顺序是无所谓的,但是执行代码的顺序是自上向下的
-只要在一个cell中定义好了相关的变量或者函数或者类(相关的定义),当该cell执行后,则定义的内容就会被加载到当前源文件的缓存中,那么表示在其他任意的cell中都以直接使用之前定义好的加载到缓存中的定义。
-markdown:编写笔记。可以使用markdown集成好的指令指定文字的样式,也可以使用html标签指定文字的样式。
-folder:新建一个文件夹
-text file:新建一个任意后缀的文本文件
-可以在里面写程序,但是不能直接运行
-terminal:新建一个基于浏览器的终端

浙公网安备 33010602011771号