摘要: 爬虫的一般分为四步,第二个步骤就是对爬取的数据进行解析。 python爬虫一般使用三种解析方式,一正则表达式,二xpath,三BeautifulSoup。 这篇博客主要记录下正则表达式的使用。 正则表达式 . 匹配除“\n”之外的任何单个字符。 * 匹配前面的子表达式零次或者多次。 + 匹配前面的子 阅读全文
posted @ 2019-04-18 12:52 噼里巴啦 阅读(1118) 评论(0) 推荐(0) 编辑
摘要: 什么是requests模块 了解爬虫的人都知道,爬虫总共分为四部分,发送请求,获取响应,解析数据,保存数据,发送请求可能是爬虫的起点,或者说是第一步,更是重点。 而requests模块是python中基于网络请求的模块,或者可以说是发送请求的模块,它通过模拟浏览器发起请求,虽然它的语法相对比较简单, 阅读全文
posted @ 2019-04-17 22:17 噼里巴啦 阅读(330) 评论(0) 推荐(0) 编辑
摘要: 最近在学习python爬虫,看到网上有很多关于模拟豆瓣登录的例子,随意找了一个试了下,发现不能运行,对比了一下代码和豆瓣网站,发现原来是豆瓣网站做了修改,增加了反爬措施。 首先看下要模拟登录的网站: 打开开发者模式: 在账号和密码随意填入数据: 发现会发送一个post请求: ur是:https:// 阅读全文
posted @ 2019-04-17 12:32 噼里巴啦 阅读(2520) 评论(1) 推荐(0) 编辑
摘要: 1 首先看下要抓取的页面 这是糗事百科里面的糗图页面,每一页里面有很多的图片,我们要做的就是把这些图片抓取下来。 2 分析网页源代码 发现源代码里面的每张图是这样储存的,所以决定使用正则匹配出图片的url,然后下载下来。 3 编写程序 3 查看爬取到的图片 一个很简单的小程序。 阅读全文
posted @ 2019-04-16 15:59 噼里巴啦 阅读(957) 评论(0) 推荐(0) 编辑
摘要: bz2模块提供了使用bzip2算法压缩和解压缩数据一套完整的接口。 bz2模块包括: 用于读写压缩文件的open()函数和BZ2File类 用于一次性压缩和解压缩的compress() 和 decompress() 函数 用于增量压缩和解压的 BZ2Compressor 和 BZ2Decompres 阅读全文
posted @ 2019-04-15 11:32 噼里巴啦 阅读(6103) 评论(0) 推荐(0) 编辑
摘要: 9 第九关 是一张图,上面有很多的黑点,查看网页源代码发现了上一关的提示: 还发现了一大串的数字 感觉又是一个使用PIL库进行图像处理的题,百度后知道要将这些点连接起来并重新画图。但是不能在原始图上修改,我们应该重新画图并进行修改。 编写代码: 得到图像: 图像上是个牛,就是英文的bull 那么第十 阅读全文
posted @ 2019-04-14 23:33 噼里巴啦 阅读(234) 评论(0) 推荐(0) 编辑
摘要: PIL(Python Image Library)是python的第三方图像处理库,PIL的功能非常的强大,几乎被认定是Python的官方图像处理库了。 由于PIL仅支持到python2.7于是一群志愿者在PIL的基础上创建了兼容的版本,名字叫Pillow,支持最新的python3,而且扩容了很多特 阅读全文
posted @ 2019-04-12 21:52 噼里巴啦 阅读(17636) 评论(1) 推荐(0) 编辑
摘要: 1 简述 zip文件是一个常用的归档和与压缩标准。 zipfile模块提供了创建、读取、写入、添加及列出zip文件的工具。 zipfile里有2个非常常用的class,分别是Zipfile和ZipInfo,在绝大多数情况下,我们只需要使用这2个class就可以了。 Zipfile是主要的类,用于创建 阅读全文
posted @ 2019-04-12 13:13 噼里巴啦 阅读(647) 评论(0) 推荐(0) 编辑
摘要: 1 概念 pickle是python语言的标准模块,安装python后以包含pickle库,不需要再单独安装。 pickle提供了一种简单的持久化功能,可以将对象以文件的形式存放在磁盘上。 pickle模块用于实现序列化和反序列化。 pickle模块是以二进制的形式序列化后保存到文件中(保存文件的后 阅读全文
posted @ 2019-04-11 18:07 噼里巴啦 阅读(8245) 评论(0) 推荐(0) 编辑
摘要: 0 第零关 2**38 = 274877906944 下一关的url:http://www.pythonchallenge.com/pc/def/274877906944.html 1 第一关 移位计算,可以看出来是移动2位 得到答案: 第二关url:http://www.pythonchallen 阅读全文
posted @ 2019-04-10 23:05 噼里巴啦 阅读(403) 评论(0) 推荐(0) 编辑