摘要:
爬取网页时候print输出的时候有中文输出乱码 例如: \\xe4\\xb8\\xad\\xe5\\x8d\\x8e\\xe4\\xb9\\xa6\\xe5\\xb1\\x80 百度了使用encode 和decode 使用codecs都不好使。 应该在爬取网页read()的时候就修改编码格式 还有一 阅读全文
摘要:
爬取网页时候print输出的时候有中文输出乱码 例如: \\xe4\\xb8\\xad\\xe5\\x8d\\x8e\\xe4\\xb9\\xa6\\xe5\\xb1\\x80 百度了使用encode 和decode 使用codecs都不好使。 应该在爬取网页read()的时候就修改编码格式 还有一 阅读全文
摘要:
1、map() : python内置的高阶函数,接收一个函数f和一个list,并通过把函数f依次作用在list的每个元素上,得到一个新的list并 返回。 注:map()并不改变原有的list,而是返回一个新的list 2、reduce() :内置高阶函数,接收一个函数f和一个list。f必须接收两 阅读全文
摘要:
【直接上代码】 #coding=utf-8#1、先将正则表达式的字符串形式编译为Pattern实例 #2、使用Pattern实例处理文本并获得匹配结果 #3、最后使用Match实例获得消息,进行其他操作 import re # 【1】 re.compile(string[,flag]) 将正则表达式 阅读全文
摘要:
参考的这3个文档,虽然搭建花了挺长时间也遇到挺多问题,但是这3个文档对我的帮助确实挺大,如果有兴趣的或者有需要的可以参考以下文档。 http://blog.csdn.net/wy250229163/article/details/52729608 http://blog.csdn.net/u0126 阅读全文
摘要:
启动hadoop再启动spark后jps,发现master进程和worker进程同时存在,调试了半天配置文件。 测试发现,当我关闭hadoop后 worker进程还是存在, 但是,当我再关闭spark之后再jps,发现worker进程依旧存在 于是想起了在~/spark/conf/slaves 中配 阅读全文
摘要:
因为看到我参考的Hadoop/spark集群搭建的文档中的都没有对 /spark-default.conf 的配置 合理地对 /spark-default.conf 进行配置,能够提高执行效率 先cp复制模板文件 然后添加配置信息 阅读全文
摘要:
sudo chown -R $USER 文件夹路径 例如:sudo chown -R $USER ~/scala 阅读全文
摘要:
默认情况下,/usr/local/hadoop/etc/hadoop/文件夹下有mapred.xml.template文件,我们要复制该文件,并命名为mapred.xml,该文件用于指定MapReduce使用的框架。 复制并重命名 cp mapred-site.xml.template mapred 阅读全文
摘要:
download binary 而不是 source http://hadoop.apache.org/#Download+Hadoop 阅读全文
|