2019 年 2月 27 日随笔档案 - 余火灬

2019年2月27日

摘要：一、HTTP概述超文本传输协议。这个协议详细规定了浏览器和万维网服务器之间互相通信的规则。客户端发送给服务器的格式叫“请求协议”；服务器发送给客户端的格式叫“响应协议”。 HTTP是无状态协议，FTP是有状态阅读全文

posted @ 2019-02-27 22:32 余火灬阅读(112) 评论(0) 推荐(0)

摘要：爬虫框架就是一些爬虫项目的半成品，可以将一些爬虫常用的功能写好。然后留下一些接口，在不同的爬虫项目中，调用适合自己项目的接口，再编写少量的代码实现自己需要的功能。因为框架已经实现了爬虫常用的功能，所以为开发人员节省了很多精力与时间。 1、Scrapy爬虫框架这是一套比较成熟的python爬虫框架，阅读全文

posted @ 2019-02-27 11:32 余火灬阅读(730) 评论(0) 推荐(0)

HTML解析之BeautifulSoup

摘要： BeautifulSoup是一个用于从HTML和XML文件中提取数据的Python库。BeautifulSoup提供一些简单的、函数用来处理导航、搜索、修改分析树等功能。BeautifulSoup模块中的查找提取功能非常强大，而且非常便捷，它通常可以节省程序员数小时或数天的工作时间。 Beautif 阅读全文

posted @ 2019-02-27 11:11 余火灬阅读(314) 评论(0) 推荐(0)

代理服务

摘要：在爬取网页的过程中，经常会出现不久前可以爬取的网页现在无法爬取了，这是因为您的IP被爬取网站的服务器所屏蔽了。此时代理服务可以为您解决这一麻烦，设置代理时，首先需要找到代理地址，例如“122.114.31.177”，对应的端口号为“808”，完整的格式为“122.114.31.177:808”，如下阅读全文

posted @ 2019-02-27 10:39 余火灬阅读(317) 评论(0) 推荐(0)

网络超时

摘要：在访问一个网页时，如果该网页长时间未响应，系统会判断该网页超时，所以无法打开网页。下面通过代码来模拟一个网络超时的现象，如下：说起网络异常信息，requsets模块提供了三种常见的网络异常类，如下：阅读全文

posted @ 2019-02-27 10:32 余火灬阅读(282) 评论(0) 推荐(0)

请求headers处理

摘要：有时在请求一个网页内容时，发现无论通过GET或者是POST以及其他请求方式，都会出现403错误。这种现象多数是由于服务器拒绝了您的访问，那是因为这些网页为了防止恶意采集信息，所使用的反爬虫设置。此时可通过模拟浏览器头部信息来进行访问，这样就解决了以上反爬虫设置的问题。下面以requests模块为例介阅读全文

posted @ 2019-02-27 10:05 余火灬阅读(423) 评论(0) 推荐(0)

requests模块

摘要： requests是python中实现http请求的一种方式，requests是第三方模块，该模块在实现http请求时要比urllib模块简化很多，操作更加人性化。特性如下： Keep-Alive&连接池 Unicode响应体国际化域名和URL HTTP(S)代理支持带持久Cookie的会话文件阅读全文

posted @ 2019-02-27 09:26 余火灬阅读(140) 评论(0) 推荐(0)

urllib3

摘要： urllib3是一个功能强大、条理清晰、用于http客户端的python库，相对于urllib它所有的特点如下：线程安全连接池客户端SSL/TLS验证使用多部分编码上传文件 Helpers用于重试请求并处理HTTP重定向支持gzip和deflate编码支持HTTP和SOCKS代理 100 阅读全文

posted @ 2019-02-27 08:49 余火灬阅读(543) 评论(0) 推荐(0)

我李逍遥要做盖世英雄

公告