随笔分类 -  2018年11月爬虫

摘要:HTML解析库beautifulsoup4 安装:pip install beautifulsoup4 下面是一段例子代码: 我们获取的网页数据通常会像上面这样是完全的字符串格式,所以我们首先需要使用BeautifulSoup来解析这段字符串。然后会获得一个BeautifulSoup对象,通过这个对 阅读全文
posted @ 2018-11-13 07:51 kanglun 阅读(174) 评论(0) 推荐(0)
摘要:官方文档: http://cn.python-requests.org/zh_CN/latest/ 安装: pip install requests 使用方法: (1)get 方法 (2)post方法 (3)传递url参数 有时候我们会遇到相同的url参数名,但有不同的值,而python的字典又不支 阅读全文
posted @ 2018-11-08 11:45 kanglun 阅读(142) 评论(0) 推荐(0)
摘要:抓包:抓包(packet capture)就是将 网络传输发送与接收的 数据包进行截获、重发、编辑、转存等操作,也用来检查网络安全。抓包也经常被用来进行数据截取等。 fiddler 下载官网:https://www.telerik.com/fiddler 使用原理:Http : 由于HTTP请求是没 阅读全文
posted @ 2018-11-06 14:03 kanglun 阅读(370) 评论(0) 推荐(0)
摘要:第一次握手:建立连接时,客户端发送syn包到服务器,并进入SYN_SENT状态,等待服务器确认;SYN:同步序列编号 第二次握手:服务器收到syn包,必须确认客户的SYN,同时自己也发送一个SYN包和一个ack包,此时服务器进入SYN_RECV状态; 第三次握手:客户端收到服务器的SYN包和ACK包 阅读全文
posted @ 2018-11-04 09:07 kanglun 阅读(113) 评论(0) 推荐(0)