Python-爬虫基础七-原理

爬虫的基本原理

爬虫概述

简单来说，爬虫就是获取网页并提取和保存信息的自动化程序。

可以将爬虫总结为4个步骤：

1.获取网页

爬虫首先要做的工作就是获取网页，也就是获取网页的源代码，源代码包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息。

根据请求和响应的概念，向网站的服务器发送一个请求，返回的响应体便是网页源代码，因此最关键的部分就是构造一个请求并发送给服务器，然后接受到响应并将其解析出来。

2、爬虫分类

通用爬虫
实例：
       百度、360、Google等搜索引擎
功能：
       访问网页->抓取数据->数据存储->数据处理->提供检索服务->

robots协议
        一个约定俗成的协议，添加robots.txt.文件来说明本网站哪些内容不可以被抓取，起不到限制作用。


聚焦爬虫
功能：
　　根据需求，实现爬虫程序，抓取需要的数据
设计思路
　　1、确定要爬取的url　
　　　　　如何获取url
　　2、模拟浏览器通过http协议访问url,获取服务器返回的html代码
　　　　　如何访问
　　3、解析html字符串（根据一定规则提取需要的数据）
　　　　　如何解析

3、反爬手段

1、User-Agent：
        User Agent中文名为用户代理，简称UA,它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
2、代理IP
        透明代理：对方服务器可以知道你使用了代理，并且也知道你的真实IP.
        匿名代理：对方服务器可以知道你使用了代理，但不知道你的真实IP。
        高匿名代理：对方服务器不知道你使用了代理，更不知道你的真实IP。
3、验证码访问
        打码平台
            云打码平台
4、动态加载网页，网站返回的是js数据，并不是网页的真实数据
        selenium驱动真实的浏览器发送请求
5、数据加密
        分析js代码

posted @ 2022-05-16 20:59 LuckinAaron 阅读(88) 评论(0) 收藏举报

刷新页面返回顶部

LuckinAaron

Python-爬虫基础七-原理

爬虫的基本原理

爬虫概述

公告