摘要: 前面我们讲过了urllib模块,知道他是用于网络请求的,这一节讲的requests还是用于网络请求的,只不过urllib是官方模块,而requests是第三方的模块。用过的人都说他才是’人类使用的’,哈哈,我也没觉得urllib有多么尿性啊!下面我们试着回归人类的生活吧。 这是第三方的模块,所以需要 阅读全文
posted @ 2017-11-27 19:54 rickiyang 阅读(211) 评论(0) 推荐(0) 编辑
摘要: python标准库中带有一个Queue模块,顾名思义,队列。该模块也衍生出一些基本队列不具有的功能。 我们先看一下队列的方法: put 存数据 get 取数据 empty 判断队列是否为空 qsize 显示队列中真实存在的元素长度 maxsize 最大支持队列长度 join 等到队列为空,该行语句下 阅读全文
posted @ 2017-11-27 19:52 rickiyang 阅读(278) 评论(0) 推荐(0) 编辑
摘要: pickle提供了一个简单的持久化功能。可以将对象以文件的形式存放在磁盘上。 基本接口: pickle.dump(obj, file, [,protocol]) 注解:将对象obj保存到文件file中去。 protocol为序列化使用的协议版本, 0:ASCII协议,所序列化的对象使用可打印的ASC 阅读全文
posted @ 2017-11-27 19:51 rickiyang 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 在爬虫的学习中,我们爬取网页信息之后就是对信息项匹配,这个时候一般是使用正则。但是在使用中发现正则写的不好的时候不能精确匹配(这其实是自己的问题!)所以就找啊找。想到了可以通过标签来进行精确匹配岂不是比正则要快。所以找到了lxml。 因为lxml是对xml格式的解析,支持html格式,而对于xml格 阅读全文
posted @ 2017-11-27 19:49 rickiyang 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 1.logging模块的使用非常简单,引入模块就可以使用。 import logging logging.debug('This is debug message') logging.info('This is info message') logging.warning('This is warn 阅读全文
posted @ 2017-11-27 19:46 rickiyang 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 前面简单介绍了hadoop生态圈,大致了解hadoop是什么、能做什么。带着这些目的我们深入的去学习他。今天一起看一下hadoop的基石—-文件存储。因为hadoop是运行与集群之上,处于分布式环境之中,所以他的文件存储也不同与普通的本地存储,而是分布式存储系统,HDFS(The Hadoop Di 阅读全文
posted @ 2017-11-27 11:07 rickiyang 阅读(338) 评论(0) 推荐(0) 编辑
摘要: 程序员就得不停地学习啊,故步自封不能满足公司的业务发展啊!所以我们要有搞事情的精神。都说现在是大数据的时代,可以我们这些码农还在java的业务世界里面转悠呢。好不容易碰到一个可能会用到大数据技术的场景时可惜你又没这个技术把这一票接下来!书到用时方恨少。所以我们也要与时代同进步,搞搞大数据。分布式的基 阅读全文
posted @ 2017-11-27 10:52 rickiyang 阅读(699) 评论(1) 推荐(1) 编辑