Liuyt_61

愿踏遍山河,仍觉人间值得

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2017年12月3日

摘要: 爬取网页时候print输出的时候有中文输出乱码 例如: \\xe4\\xb8\\xad\\xe5\\x8d\\x8e\\xe4\\xb9\\xa6\\xe5\\xb1\\x80 百度了使用encode 和decode 使用codecs都不好使。 应该在爬取网页read()的时候就修改编码格式 还有一 阅读全文
posted @ 2017-12-03 19:23 Liuyt_61 阅读(2412) 评论(0) 推荐(0) 编辑

2017年11月28日

摘要: 1、map() : python内置的高阶函数,接收一个函数f和一个list,并通过把函数f依次作用在list的每个元素上,得到一个新的list并 返回。 注:map()并不改变原有的list,而是返回一个新的list 2、reduce() :内置高阶函数,接收一个函数f和一个list。f必须接收两 阅读全文
posted @ 2017-11-28 17:25 Liuyt_61 阅读(229) 评论(0) 推荐(0) 编辑

2017年11月26日

摘要: 阅读全文
posted @ 2017-11-26 15:00 Liuyt_61 阅读(177) 评论(0) 推荐(0) 编辑

2017年11月24日

摘要: 【直接上代码】 #coding=utf-8#1、先将正则表达式的字符串形式编译为Pattern实例 #2、使用Pattern实例处理文本并获得匹配结果 #3、最后使用Match实例获得消息,进行其他操作 import re # 【1】 re.compile(string[,flag]) 将正则表达式 阅读全文
posted @ 2017-11-24 23:38 Liuyt_61 阅读(361) 评论(0) 推荐(0) 编辑

2017年6月8日

摘要: 参考的这3个文档,虽然搭建花了挺长时间也遇到挺多问题,但是这3个文档对我的帮助确实挺大,如果有兴趣的或者有需要的可以参考以下文档。 http://blog.csdn.net/wy250229163/article/details/52729608 http://blog.csdn.net/u0126 阅读全文
posted @ 2017-06-08 23:47 Liuyt_61 阅读(169) 评论(0) 推荐(0) 编辑

摘要: 启动hadoop再启动spark后jps,发现master进程和worker进程同时存在,调试了半天配置文件。 测试发现,当我关闭hadoop后 worker进程还是存在, 但是,当我再关闭spark之后再jps,发现worker进程依旧存在 于是想起了在~/spark/conf/slaves 中配 阅读全文
posted @ 2017-06-08 23:43 Liuyt_61 阅读(1970) 评论(0) 推荐(0) 编辑

摘要: 因为看到我参考的Hadoop/spark集群搭建的文档中的都没有对 /spark-default.conf 的配置 合理地对 /spark-default.conf 进行配置,能够提高执行效率 先cp复制模板文件 然后添加配置信息 阅读全文
posted @ 2017-06-08 23:37 Liuyt_61 阅读(2794) 评论(0) 推荐(0) 编辑

摘要: sudo chown -R $USER 文件夹路径 例如:sudo chown -R $USER ~/scala 阅读全文
posted @ 2017-06-08 18:19 Liuyt_61 阅读(11060) 评论(0) 推荐(1) 编辑

2017年6月7日

摘要: 默认情况下,/usr/local/hadoop/etc/hadoop/文件夹下有mapred.xml.template文件,我们要复制该文件,并命名为mapred.xml,该文件用于指定MapReduce使用的框架。 复制并重命名 cp mapred-site.xml.template mapred 阅读全文
posted @ 2017-06-07 23:30 Liuyt_61 阅读(3181) 评论(0) 推荐(2) 编辑

摘要: download binary 而不是 source http://hadoop.apache.org/#Download+Hadoop 阅读全文
posted @ 2017-06-07 23:07 Liuyt_61 阅读(750) 评论(0) 推荐(0) 编辑