day 03
一爬虫原理
1.什么是互联网?
指的是由一堆网络设备,把一台台的计算机互联网到一起称之为互联网。
2.互联网建立的目的?
互联网建立的目的是为了数据的传递以及数据的共享,
3..上网的全过程:
一普通用户:
打开浏览器一>往目标站点发送请求一>获取响应数据一-> 渲染到浏览器中
-爬虫程序:
模拟浏览器一->往目标站点发送请求一>获取响应数据一>提取有价值的数据一> 持久化到数据中
上网的全过程:
一普通用户:
打开浏览器一>往目标站点发送请求一>获取响应数据一>渲染到浏览器中
-爬虫程序:
模拟浏览器一>往目标站点发送请求一>获取响应数据一>提取有价值的数据一>持久化到数据中
5.浏览器发送的是什么请求?
http协议的请求。
-客户端:
浏览器是一个软件->客户端的IP和端口
一服务端
https : / /www. jd. com/
www.jd. com (京东域名) -> DNS解析->京东服务端的IP和端口
客户端的ip和端口- - - >服务端的 IP和端口发送请求可以建 立链接获取相应数据
6.爬虫的全过程
发送请求(需要请求库:Requests请求库、Selenium请求库)
- 获取响应数据(只要往服务器发送请求,请求通过后会返回响应数据)
-解析并提取数据(需要解析库:re、Beautifulsoup4、Xpath....)
-保存到本地(文件处理、数据库、MongoDB存储库)
浙公网安备 33010602011771号