随笔分类 -  Hadoop

摘要:http://www.inf.ed.ac.uk/teaching/courses/exc/labs/hadoop_streaming.html 阅读全文
posted @ 2021-04-25 19:14 乐乐章 阅读(43) 评论(0) 推荐(0)
摘要:1.默认情况在hadoop streaming的默认情况下,是以"\t"作为分隔符的。对于标准输入来说,每行的第一个"\t" 以前的部分为key,其他部分为对应的value。如果一个"\t"字符没有,则整行都被当做key。这个<key,value>即是map阶段的输出,也是reduce阶段的输入。 阅读全文
posted @ 2021-03-03 15:21 乐乐章 阅读(334) 评论(0) 推荐(0)
摘要:具体问题: 针对问题2的一个解决办法是将Python依赖库打包成*.egg文件,在运行pyspark或者spark-submit时使用–py-files加载egg文件。此解决方案的问题在于许多Python库都包含native code,编译时对平台依赖,并且对于一些复杂依赖的库(如Pandas) 阅读全文
posted @ 2017-07-26 23:10 乐乐章 阅读(907) 评论(0) 推荐(0)
摘要:原始Liunx 的python版本不带numpy ,安装了anaconda 之后,使用hadoop streaming 时无法调用anaconda python , 后来发现是参数没设置好。。。 进入正题: 环境: 4台服务器:master slave1 slave2 slave3。 全部安装ana 阅读全文
posted @ 2017-06-05 21:03 乐乐章 阅读(1378) 评论(0) 推荐(0)