摘要: 请求响应包头 请求报头(Request Headers) 1. Host (主机和端口号) Host:对应网址URL中的Web名称和端口号,用于指定被请求资源的Internet主机和端口号,通常属于URL的一部分。 2. Connection (链接类型) Connection:表示客户端与服务连接 阅读全文
posted @ 2020-04-21 10:29 Hecarim丶 阅读(690) 评论(0) 推荐(0) 编辑
摘要: 认识爬虫 爬虫是什么: 爬取互联网上的信息 数据挖掘->数据清洗(得到有效的信息) 爬虫分类: 通用爬虫:是搜索引擎抓取系统(百度,谷歌)的重要组成,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份 抓取网页 -> 数据存储 -> 预处理 -> 提供检索,网站排名 聚焦爬虫:是"面 阅读全文
posted @ 2020-04-21 10:08 Hecarim丶 阅读(425) 评论(0) 推荐(1) 编辑