深入学习Python爬虫（1）--爬虫之介绍

深入学习Python爬虫（1）--爬虫之介绍：

爬虫的定义：

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

爬虫_百度汉语：

爬虫有什么用：

1.市场分析：电商分析、商圈分析、一二级市场分析等

2.市场监控：电商、新闻、房源监控等

3.商机发现：招投标情报发现、客户资料发掘、企业客户发现等

4.新媒体分析：通过爬取公众号的热门文章标题等起名方式，快速写出10万+爆文

5.数据分析：通过爬取相关的公开数据，做出自己的产品

......

那么学习爬虫之前，你应该了了解哪些知识呢？

1.认识网址的构成

一个网站的网址一般由域名+自己编写的页面所构成。我们在访问网站的网页时，域名一般是不会改变的，因此我们爬虫所需要解析的就是网站自己所编写的不同页面的入口url，只有解析出来各个页面的入口，我们才能开始我们的爬虫。

2.了解网页的两种加载方法

同步加载：改变网址上的某些参数会导致网页发生改变，例如：www.baidu.com/company?page=1（改变page=后面的数字，网页会发生改变）

异步加载：改变网址上的参数不会使网页发生改变，例如：www.baidu.com/gongsi/（翻页后网址不会发生变化）

3.认识网页源码的构成

网页一般由HTML，CSS,JS组成，可能还会包括一些主流的框架语言以及PHP等脚本语言。

html：描述网页的内容结构(骨架)

css：描述网页的排版布局（外观）

JavaScript：描述网页的事件处理，即鼠标或键盘在网页元素上的动作后的程序（动作）

4.查看网页请求

以chrome浏览器为例，在网页上点击鼠标右键，检查（或者直接F12），选择network，刷新页面，选择ALL下面的第一个链接，这样就可以看到网页的各种请求信息。

这里我以百度首页为例：

然后我们打开任意一个Name下面对应的值：下面我们可以看到网络请求与响应的一些信息：具体代表什么意思，请查阅相关资料。

5.理解网页的请求过程

如果你已经对前端有了一定的了解，同时又对计算机网络知识有一定的接触，那么你会更好更容易的学习爬虫了；如果你没有接触过，也不用担心。

请继续期待后续更新：

最近将会更新内容：Java面向对象系列文章，欢迎关注！

posted @ 2017-11-18 17:36 *Fengy 阅读(493) 评论(0) 收藏举报

刷新页面返回顶部

*Fengy

深入学习Python爬虫（1）--爬虫之介绍

爬虫_百度汉语：

爬虫有什么用：

1.认识网址的构成

2.了解网页的两种加载方法

3.认识网页源码的构成

4.查看网页请求

公告