随笔分类 -  爬虫

关于python爬虫方面的学习笔记
摘要:什么是验证码? 验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写。是一种用来区分用户是计算机还是人的公共全自动程序。 验证码的作 阅读全文
posted @ 2018-10-12 16:29 pywjh 阅读(2457) 评论(0) 推荐(0)
摘要:前言 我们所说的加密方式,都是对二进制编码的格式进行加密的,对应到Python中,则是我们的Bytes。 所以当我们在Python中进行加密操作的时候,要确保我们操作的是Bytes,否则就会报错。 将字符串和Bytes互相转换可以使用encode()和decode()方法。如下所示: # 方法中不传 阅读全文
posted @ 2018-09-27 17:25 pywjh 阅读(802) 评论(0) 推荐(0)
摘要:XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。 相比于BeautifulSoup,Xpath在提取数据时会更加的方便。 安装 在Python中很多库都有提供Xpath的功能,但是最基本的还是lxml这个库,效率最高。在之前Beautif 阅读全文
posted @ 2018-09-26 17:25 pywjh 阅读(3164) 评论(0) 推荐(1)
摘要:BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库,它的使用方式相对于正则来说更加的简单方便,常常能够节省我们大量的时间。 BeautifulSoup也是有官方中文文档的:https://www.crummy.com/software/BeautifulSoup/ 阅读全文
posted @ 2018-09-26 17:20 pywjh 阅读(579) 评论(0) 推荐(0)
摘要:官网 例子与特性 可以说Requests最大的特性就是其风格的简单直接优雅。无论是请求方法,还是响应结果的处理,还有cookies,url参数,post提交数据,都体现出了这种风格。 以下是一个简单例子: >>> import requests >>> resp = requests.get('ht 阅读全文
posted @ 2018-09-22 11:34 pywjh 阅读(281) 评论(0) 推荐(0)
摘要:Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urllib。 而urllib3则是增加了连接池等功能,两者互相都有补充的部分。 urllib urllib作 阅读全文
posted @ 2018-09-22 11:28 pywjh 阅读(5485) 评论(0) 推荐(0)
摘要:深入浅出了解HTTP协议 HTTP(HyperText Transfer Protocol,超文本传输协议)是互联网上应用最为广泛的一种网络协议。目前使用最普遍的一个版本是HTTP 1.1。 HTTP协议是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效,使网络传输减少。它 阅读全文
posted @ 2018-09-22 09:47 pywjh 阅读(320) 评论(0) 推荐(0)

回到顶部