爬虫基本原理

爬虫是模拟用户在浏览器或者App应用上的操作，把操作的过程、实现自动化的程序

当我们在浏览器中输入一个url后回车，后台会发生什么？比如说你输入https://www.baidu.com

简单来说这段过程发生了以下四个步骤：

网络爬虫要做的，简单来说，就是实现浏览器的功能。通过指定url，直接返回给用户所需要的数据，而不需要一步步人工去操纵浏览器获取。

HTTP协议（HyperText Transfer Protocol，超文本传输协议）目的是为了提供一种发布和接收

HTML(HyperText Markup Language)页面的方法。

HTTPS（全称：Hypertext Transfer Protocol over Secure Socket Layer），是以安全为目标的HTTP通道，简单讲是HTTP的安全版。

posted on 2017-03-17 09:56 LoaderMan 阅读(323) 评论(0) 收藏举报

刷新页面返回顶部