摘要:网络爬虫 通用爬虫技术框架 爬虫系统首先从互联网页面中精心选择一部分网页,以这些网页的链接地址作为种子URL,将这些种子放入待爬取URL队列中,爬虫从待爬取URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。然后将其和网页相对路径名交给网页下载器,网页下载器负责页
        
阅读全文
 
    
        
        
摘要:正向代理和反向代理 正向代理 A同学在大众创业、万众创新的大时代背景下开启他的创业之路,目前他遇到的最大的一个问题就是启动资金,于是他决定去找马云爸爸借钱,可想而知,最后碰一鼻子灰回来了,情急之下,他想到一个办法,找关系开后门,经过一番消息打探,原来A同学的大学老师王老师是马云的同学,于是A同学找到
        
阅读全文
 
    
        
        
摘要:一个URL之旅 在整个过程中,大致可以分为以下几个过程 DNS域名解析 TCP连接 HTTP请求 处理请求返回HTTP响应 页面渲染 关闭连接 DNS域名解析 在浏览器输入网址后,首先要经过域名解析,因为浏览器并不能直接通过域名找到对应的服务器,而是要通过 IP 地址。大家这里或许会有个疑问 计算机
        
阅读全文
 
    
        
        
摘要:网络IO Linux 的内核将所有外部设备都看做一个文件来操作(一切皆文件),对一个文件的读写操作会调用内核提供的系统命令,返回一个file descriptor(fd,文件描述符)。而对一个socket的读写也会有响应的描述符,称为socket fd(socket文件描述符),描述符就是一个数字,
        
阅读全文
 
    
        
        
摘要:TCP三次握手和四次挥手 TCP首部格式 序号 :用于对字节流进行编号,例如序号为 301,表示第一个字节的编号为 301,如果携带的数据长度为 100字节,那么下一个报文段的序号应为 401。 确认号 :期望收到的下一个报文段的序号。例如 B 正确收到 A 发送来的一个报文段,序号为 501,携带
        
阅读全文
 
    
        
        
摘要:HTTP1.0、HTTP1.1、HTTP2.0的关系和区别 一、汇总对比 HTTP1.0 无状态、无连接 HTTP1.1 持久连接 请求管道化 增加缓存处理(新的字段如cache-control) 增加Host字段、支持断点传输等(把文件分成几部分) HTTP2.0 二进制分帧 多路复用(或连接共享
        
阅读全文
 
    
        
        
摘要:管理Cookie和Session 前言 这几天中,一直再跟漏洞打交道,而在这些漏洞中,出现的最多的就是 Cookie 和 Session 了。这篇文章就简单的介绍一些 Cookie 中最常用的四个属性。也算是为后续的文章做一个铺垫吧。 废话不多说,直接进入正题。 属性 Path(路径) Path 是
        
阅读全文
 
    
        
        
摘要:Http协议的学习 开始之前,这里推荐用几款用于学习Http协议的软件,这些软件也可以用于调试程序的BUG Wireshark fiddler postman 1.1 介绍 HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。它的发展是万维网协会(World 
        
阅读全文