Python-爬虫基础七-原理

 

爬虫的基本原理

爬虫概述

简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。

可以将爬虫总结为4个步骤:

 

 

1.获取网页

爬虫首先要做的工作就是获取网页,也就是获取网页的源代码,源代码包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息。

根据请求和响应的概念,向网站的服务器发送一个请求,返回的响应体便是网页源代码,因此最关键的部分就是构造一个请求并发送给服务器,然后接受到响应并将其解析出来。

 

 2、爬虫分类

通用爬虫
实例: 百度、
360、Google等搜索引擎 功能: 访问网页->抓取数据->数据存储->数据处理->提供检索服务-> robots协议 一个约定俗成的协议,添加robots.txt.文件来说明本网站哪些内容不可以被抓取,起不到限制作用。


聚焦爬虫
功能:
  根据需求,实现爬虫程序,抓取需要的数据
设计思路
  1、确定要爬取的url 
     如何获取url
  2、模拟浏览器通过http协议访问url,获取服务器返回的html代码
     如何访问
  3、解析html字符串(根据一定规则提取需要的数据)
     如何解析

3、反爬手段

1、User-Agent:
        User Agent中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
2、代理IP
        透明代理:对方服务器可以知道你使用了代理,并且也知道你的真实IP.
        匿名代理:对方服务器可以知道你使用了代理,但不知道你的真实IP。
        高匿名代理:对方服务器不知道你使用了代理,更不知道你的真实IP。
3、验证码访问
        打码平台
            云打码平台
4、动态加载网页,网站返回的是js数据,并不是网页的真实数据
        selenium驱动真实的浏览器发送请求
5、数据加密
        分析js代码

 

posted @ 2022-05-16 20:59  LuckinAaron  阅读(49)  评论(0编辑  收藏  举报