Hadoop - 随笔分类 - 乐乐章

摘要：http://www.inf.ed.ac.uk/teaching/courses/exc/labs/hadoop_streaming.html 阅读全文

posted @ 2021-04-25 19:14 乐乐章阅读(43) 评论(0) 推荐(0)

摘要：1.默认情况在hadoop streaming的默认情况下，是以"\t"作为分隔符的。对于标准输入来说，每行的第一个"\t" 以前的部分为key，其他部分为对应的value。如果一个"\t"字符没有，则整行都被当做key。这个<key,value>即是map阶段的输出，也是reduce阶段的输入。阅读全文

posted @ 2021-03-03 15:21 乐乐章阅读(334) 评论(0) 推荐(0)

Spark集群 Python Package管理

摘要：具体问题：针对问题2的一个解决办法是将Python依赖库打包成*.egg文件，在运行pyspark或者spark-submit时使用–py-files加载egg文件。此解决方案的问题在于许多Python库都包含native code，编译时对平台依赖，并且对于一些复杂依赖的库（如Pandas）阅读全文

posted @ 2017-07-26 23:10 乐乐章阅读(907) 评论(0) 推荐(0)

hadoop streaming anaconda python 计算平均值

摘要：原始Liunx 的python版本不带numpy ，安装了anaconda 之后，使用hadoop streaming 时无法调用anaconda python ，后来发现是参数没设置好。。。进入正题：环境： 4台服务器：master slave1 slave2 slave3。全部安装ana 阅读全文

posted @ 2017-06-05 21:03 乐乐章阅读(1378) 评论(0) 推荐(0)

乐乐章

NLP/推荐我很菜

随笔分类 - Hadoop

公告

乐乐章

NLP/推荐 我很菜

随笔分类 - Hadoop

公告

NLP/推荐我很菜