摘要: https://zlver.com/ 阅读全文
posted @ 2019-09-12 16:19 乐-张蒙 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 1、spark.hadoop.validateOutputSpecs若设置为true,saveAsHadoopFile会验证输出目录是否存在。虽然设为false可直接覆盖文件路径 阅读全文
posted @ 2019-07-15 11:52 乐-张蒙 阅读(815) 评论(0) 推荐(0) 编辑
摘要: Mac 简洁安装Kafka 1.采用homebrew的方式 终端执行命令:brew install kafka 2.修改Kafka服务配置文件server.properties 执行命令: vi /usr/local/etc/kafka/server.properties 解除注释:listener 阅读全文
posted @ 2019-07-02 15:09 乐-张蒙 阅读(2646) 评论(0) 推荐(0) 编辑
摘要: Error: java: 无法访问org.apache.hadoop.mapred.JobConf 找不到org.apache.hadoop.mapred.JobConf的类文件 出现此异常,是缺少相关的依赖包,检查以下四个依赖包是否添加: hadoop-mapreduce-client-core- 阅读全文
posted @ 2019-03-19 11:32 乐-张蒙 阅读(6939) 评论(0) 推荐(1) 编辑
摘要: 猜测python应该是有现成的模块可以解决该问题,不过没找到,所以自己简单写了个函数处理: def tranform(inputString): num_value = re.compile('^[0-9.]+([*|x][0-9]+)+[E|e|^][+-]?[0-9]+$') result = 阅读全文
posted @ 2018-10-18 14:29 乐-张蒙 阅读(9656) 评论(1) 推荐(0) 编辑
摘要: 第一次格式化dfs后,启动并使用hadoop,之后如果再次重新执行了格式化(hdfs namenode -format) start-all.sh启动时就会遇到datanode无法启动的问题,通常情况是datanode的clusterID 和 namenode的clusterID 经过再次格式化后已 阅读全文
posted @ 2018-09-20 17:07 乐-张蒙 阅读(1275) 评论(0) 推荐(0) 编辑
摘要: 好记性不容烂笔头啊,总是忘,记录一下备查~ 设置ssh免密码登录,首先需要生产公钥,命令:$ ssh-keygen -t rsa 一路回车即可 然后把生成的公钥拷贝到机器需要登录的机器上的~/.ssh/authorized_keys中,使用如下命令:$ ssh-copy-id -i ~/.ssh/i 阅读全文
posted @ 2018-09-20 14:46 乐-张蒙 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 报错日志如下: Caused by: java.lang.AbstractMethodError: sparkCore.JavaWordCount$2.call(Ljava/lang/Object;)Ljava/lang/Iterable; at org.apache.spark.api.java. 阅读全文
posted @ 2018-05-23 18:22 乐-张蒙 阅读(976) 评论(0) 推荐(0) 编辑
摘要: Java heap space问题一般解决方案: 设置 set io.sort.mb=10; 排序所使用的内存数量,默认值是100M,和mapred.child.java.opts相对应,opts默认:-Xmx200m,则mb不能超过200M,否则会OOM。 设置 set hive.map.aggr 阅读全文
posted @ 2018-05-17 11:35 乐-张蒙 阅读(8172) 评论(1) 推荐(1) 编辑
摘要: 在 linux中设置环境变量一般使用bash_profile进行配置 其中/etc/bash_profile 表示系统整体设置 ,生效后系统内所有用户可用而 ~/.bash_profile 只表示当前用户的个人设置,生效后只该用户可用。 阅读全文
posted @ 2018-05-12 12:08 乐-张蒙 阅读(7218) 评论(0) 推荐(1) 编辑