North老师的爬虫课01

------------恢复内容开始------------

一、以下情况你有没有想过：

　　1.你是否在夜深人静的时候，内心骚动，想白嫖一些免费的正经电影视频。

　　2.你是否对百度文库vip付费感觉特别郁闷

　　3.你是否苦恼，过年前回家抢不到车票

　　等等（很多啊，我在这就不一一叙述了）

　　　　那如果我告诉你有一种技术可以帮你这些忙，你学还是不学。

二、什么是爬虫？

-就是通过编写程序，让其模拟浏览器上网，然后在互联网中抓取数据的过程。

-关键词抽取

　　-模拟：浏览器就是一个纯天然最原始的一个爬虫工具。

-抓取：

　　-抓取一整张的页面源码数据

　　-抓取一整张页面中的局部数据

B.爬虫的分类

-通用爬虫：

　　-要求我们爬取一整张页面源码数据

-聚焦爬虫

　　-要求爬取一张页面中的局部的数据

　　-聚焦爬虫一定是建立在通用爬虫的基础之上。

-增量式爬虫：

　　-用来监测网站数据更新的情况，以便爬取到网站最新更新出来的数据。

-分布式爬虫

　　-提高爬取效率的终极武器。

-反爬机制

　　-是作用数据，到门户网站中。如果网站不想让爬虫轻易爬取到数据，它可以制定相关的机制或者组织爬虫程序爬取其数据。

-反反爬策略

　　-是作用在爬虫程序中。我们爬虫可以制定相关的策略破解反爬机制从而爬取到相关的数据。

-第一个反爬机制

　　-robots协议（防君子不防小人）

　　-是一个纯文本的协议，协议中规定了该网站中哪些数据可以被哪些爬虫爬取，哪些不可以被爬取

-破解：

　　你自己主观性的不遵从该协议即可

三、工具安装

1.安装Anaconda

2.如何启动jupyter notebook

step1:配置好了环境变量，直接在终端中录入jupyter notebook 按下回车即可。
step2:没有配置环境变量，打开navigator,点击左上角的home选项，点击jupyter notebook图标下的lauch启动
推荐：点击左上角的environments
通过以下方式在终端目录输入jupyter notebook按下回车即可
-jupyter notebook的基本使用
   - 在终端中录入jupyter notebook 指令后，表示我们在本机中启动了一个服务，然后会自动打开你的默认浏览器。
       -注意：你执行jupyter notebook指令的终端，可以进入到指定的目录中执行jupyter notebook指令后，则打开的浏览器显示的页面就是你当前对应目录的目录结构。
           -你终端对应的目录结构就是你浏览器打开jupyter页面的根目录。
       - new新建：
           -python3：新建一个jupyter的源文件（重点）
               -由cell组成，cell是一行可编辑框
                   -cell模式
                       -code:可以编写python代码
                           -code模式中的cell可以写一行或者多行代码
                           -特性：编写代码的顺序是无所谓的，但是执行代码的顺序是自上向下的
                              -只要在一个cell中定义好了相关的变量或者函数或者类（相关的定义），当该cell执行后，则定义的内容就会被加载到当前源文件的缓存中，那么表示在其他任意的cell中都以直接使用之前定义好的加载到缓存中的定义。
           -markdown：编写笔记。可以使用markdown集成好的指令指定文字的样式，也可以使用html标签指定文字的样式。
           -folder：新建一个文件夹
           -text file:新建一个任意后缀的文本文件
               -可以在里面写程序，但是不能直接运行
           -terminal：新建一个基于浏览器的终端

posted @ 2022-05-07 13:06 North（zhy）阅读(161) 评论(0) 收藏举报

刷新页面返回顶部

north715

North老师的爬虫课01

三、工具安装

1.安装Anaconda

2.如何启动jupyter notebook

公告