North老师的爬虫课01

------------恢复内容开始------------

一、以下情况你有没有想过:

  1.你是否在夜深人静的时候,内心骚动,想白嫖一些免费的正经电影视频。

  2.你是否对百度文库vip付费感觉特别郁闷

  3.你是否苦恼,过年前回家抢不到车票

  等等(很多啊,我在这就不一一叙述了)

    那如果我告诉你有一种技术可以帮你这些忙,你学还是不学。


二、什么是爬虫?

-就是通过编写程序,让其模拟浏览器上网,然后在互联网中抓取数据的过程。

-关键词抽取

  -模拟:浏览器就是一个纯天然最原始的一个爬虫工具。

-抓取:

  -抓取一整张的页面源码数据

  -抓取一整张页面中的局部数据

B.爬虫的分类

-通用爬虫:

  -要求我们爬取一整张页面源码数据

-聚焦爬虫

  -要求爬取一张页面中的局部的数据

  -聚焦爬虫一定是建立在通用爬虫的基础之上。

-增量式爬虫:

  -用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据。

-分布式爬虫

  -提高爬取效率的终极武器。

-反爬机制

  -是作用数据,到门户网站中。如果网站不想让爬虫轻易爬取到数据,它可以制定相关的机制或者组织爬虫程序爬取其数据。

-反反爬策略

  -是作用在爬虫程序中。我们爬虫可以制定相关的策略破解反爬机制从而爬取到相关的数据。

-第一个反爬机制

  -robots协议(防君子不防小人)

  -是一个纯文本的协议,协议中规定了该网站中哪些数据可以被哪些爬虫爬取,哪些不可以被爬取

-破解:

  你自己主观性的不遵从该协议即可

三、工具安装

1.安装Anaconda

2.如何启动jupyter notebook

  • step1:配置好了环境变量,直接在终端中录入jupyter notebook 按下回车即可。

  • step2:没有配置环境变量,打开navigator,点击左上角的home选项,点击jupyter notebook图标下的lauch启动

  • 推荐:点击左上角的environments

  • 通过以下方式在终端目录输入jupyter notebook按下回车即可

  •  

     -jupyter notebook的基本使用
        - 在终端中录入jupyter notebook 指令后,表示我们在本机中启动了一个服务,然后会自动打开你的默认浏览器。
            -注意:你执行jupyter notebook指令的终端,可以进入到指定的目录中执行jupyter notebook指令后,则打开的浏览器显示的页面就是你当前对应目录的目录结构。
                -你终端对应的目录结构就是你浏览器打开jupyter页面的根目录。
            - new新建:
                -python3:新建一个jupyter的源文件(重点)
                    -由cell组成,cell是一行可编辑框
                        -cell模式
                            -code:可以编写python代码
                                -code模式中的cell可以写一行或者多行代码
                                -特性:编写代码的顺序是无所谓的,但是执行代码的顺序是自上向下的
                                  -只要在一个cell中定义好了相关的变量或者函数或者类(相关的定义),当该cell执行后,则定义的内容就会被加载到当前源文件的缓存中,那么表示在其他任意的cell中都以直接使用之前定义好的加载到缓存中的定义。
                -markdown:编写笔记。可以使用markdown集成好的指令指定文字的样式,也可以使用html标签指定文字的样式。
                -folder:新建一个文件夹
                -text file:新建一个任意后缀的文本文件
                    -可以在里面写程序,但是不能直接运行
                -terminal:新建一个基于浏览器的终端

posted @ 2022-05-07 13:06  North(zhy)  阅读(161)  评论(0)    收藏  举报