深入学习Python爬虫(1)--爬虫之介绍
深入学习Python爬虫(1)--爬虫之介绍:
爬虫的定义:
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
爬虫_百度汉语:
爬虫有什么用:
1.市场分析:电商分析、商圈分析、一二级市场分析等
2.市场监控:电商、新闻、房源监控等
3.商机发现:招投标情报发现、客户资料发掘、企业客户发现等
4.新媒体分析:通过爬取公众号的热门文章标题等起名方式,快速写出10万+爆文
5.数据分析:通过爬取相关的公开数据,做出自己的产品
......
那么学习爬虫之前,你应该了了解哪些知识呢?
1.认识网址的构成
一个网站的网址一般由域名+自己编写的页面所构成。我们在访问网站的网页时,域名一般是不会改变的,因此我们爬虫所需要解析的就是网站自己所编写的不同页面的入口url,只有解析出来各个页面的入口,我们才能开始我们的爬虫。
2.了解网页的两种加载方法
- 同步加载:改变网址上的某些参数会导致网页发生改变,例如:www.baidu.com/company?page=1(改变page=后面的数字,网页会发生改变)
- 异步加载:改变网址上的参数不会使网页发生改变,例如:www.baidu.com/gongsi/(翻页后网址不会发生变化)
3.认识网页源码的构成
网页一般由HTML,CSS,JS组成,可能还会包括一些主流的框架语言以及PHP等脚本语言。
- html:描述网页的内容结构(骨架)
- css:描述网页的排版布局(外观)
- JavaScript:描述网页的事件处理,即鼠标或键盘在网页元素上的动作后的程序 (动作)
4.查看网页请求
以chrome浏览器为例,在网页上点击鼠标右键,检查(或者直接F12),选择network,刷新页面,选择ALL下面的第一个链接,这样就可以看到网页的各种请求信息。
这里我以百度首页为例:
然后我们打开任意一个Name下面对应的值:下面我们可以看到网络请求与响应的一些信息:具体代表什么意思,请查阅相关资料。
如果你已经对前端有了一定的了解,同时又对计算机网络知识有一定的接触,那么你会更好更容易的学习爬虫了;如果你没有接触过,也不用担心。
请继续期待后续更新:
最近将会更新内容:Java面向对象系列文章,欢迎关注!
不必仰慕别人,自己也是风景



浙公网安备 33010602011771号