day 03

一爬虫原理
1.什么是互联网?
指的是由一堆网络设备,把一台台的计算机互联网到一起称之为互联网。
2.互联网建立的目的?
互联网建立的目的是为了数据的传递以及数据的共享,
3..上网的全过程:
一普通用户:
打开浏览器一>往目标站点发送请求一>获取响应数据一-> 渲染到浏览器中
-爬虫程序:
模拟浏览器一->往目标站点发送请求一>获取响应数据一>提取有价值的数据一> 持久化到数据中

上网的全过程:

一普通用户:

打开浏览器一>往目标站点发送请求一>获取响应数据一>渲染到浏览器中

-爬虫程序:

模拟浏览器一>往目标站点发送请求一>获取响应数据一>提取有价值的数据一>持久化到数据中

5.浏览器发送的是什么请求?

http协议的请求。

-客户端:

浏览器是一个软件->客户端的IP和端口

一服务端

https : / /www. jd. com/

www.jd. com (京东域名) -> DNS解析->京东服务端的IP和端口

客户端的ip和端口- - - >服务端的 IP和端口发送请求可以建 立链接获取相应数据

6.爬虫的全过程
发送请求(需要请求库:Requests请求库、Selenium请求库)
- 获取响应数据(只要往服务器发送请求,请求通过后会返回响应数据)
-解析并提取数据(需要解析库:re、Beautifulsoup4、Xpath....)
-保存到本地(文件处理、数据库、MongoDB存储库)

posted @ 2019-06-26 23:57  刑事组之龙周星星  阅读(71)  评论(0)    收藏  举报