摘要: import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WordCountPlus { def main(args: Array[String]): Unit = { val s 阅读全文
posted @ 2020-11-11 14:13 阳光下的me 阅读(149) 评论(0) 推荐(0) 编辑
摘要: Flume采集数据,在生成的HDFS文件中,总是有“SEQ!org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritablesɧÿ577ĂwОn=찅”信息, 在Flume文档中介绍,hdfs.fileType默认为Sequenc 阅读全文
posted @ 2019-11-07 14:05 阳光下的me 阅读(578) 评论(0) 推荐(0) 编辑
摘要: 修改Maven的配置文件 vim conf/settings.xml 修改为阿里云的远程仓库地址 修改本地仓库的地址 在settings标签內 复制被注释的localRepository 修改为自己的地址 阅读全文
posted @ 2019-11-02 20:30 阳光下的me 阅读(1647) 评论(0) 推荐(0) 编辑
摘要: 1、下载hadoop-2.6.0.tar.gz包到本地 我解压后放入D:\hadoop-2.6.0-cdh5.9.3\ https://github.com/steveloughran/winutils.git 选择相应的版本 下载hadoop.dll、winutils.exe文件放入D:\hado 阅读全文
posted @ 2018-09-07 19:37 阳光下的me 阅读(2473) 评论(0) 推荐(0) 编辑
摘要: 1、下载 livy wget http://mirrors.hust.edu.cn/apache/incubator/livy/0.5.0-incubating/livy-0.5.0-incubating-bin.zip 2、解压安装 依赖环境变量 export SPARK_HOME=/opt/ap 阅读全文
posted @ 2018-07-17 20:31 阳光下的me 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 首先找到这个jobid 可以看到这个job的执行时间很长 是被人工kill掉的 在cdh里面设置日志的筛选条件 根据关键字 FDM.T03_OFF_LOAN_APP_MA 筛选日志时间设置 开始时间 我们都知道hive语句是需要翻译成mr的,所以日志开始时间要早于 SubmitTime 结束时间 设 阅读全文
posted @ 2018-06-12 09:41 阳光下的me 阅读(900) 评论(0) 推荐(0) 编辑
摘要: Oracle: Connection Reset Errors 错误代码 11/05/26 16:23:47 INFO mapred.JobClient: Task Id : attempt_201105261333_0002_m_000002_0, Status : FAILED java.lang.RuntimeException: java.lang.RuntimeException: j... 阅读全文
posted @ 2018-03-13 15:05 阳光下的me 阅读(2373) 评论(0) 推荐(0) 编辑
摘要: 可以看日志 mr日志 可以看执行计划 分析数据倾斜,性能瓶颈的利器啊 可以看表结构 阅读全文
posted @ 2018-03-06 15:25 阳光下的me 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 问题 hive访问es 一个普通的count(*)操作开启一个mr任务进度,总是停留在5% 查看该job一共启动5个task 选择一个进入 发现把任务分发到不同的节点 查看日志 发现是三台es集群的9200端口没有对相应机器开放 阅读全文
posted @ 2018-03-06 15:12 阳光下的me 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 用hive读取es里面的数据,建表。时间类型的数据不能接受的问题 问题描述:spark读取指定索引/类型的数据,其中有自定义格式的日期数据,读取该日期时报异常,日期定义格式:"estime" : {"type" : "date","format" : "yyyy-MM-dd HH:mm:ss"}, 阅读全文
posted @ 2018-02-27 11:04 阳光下的me 阅读(3073) 评论(0) 推荐(0) 编辑