阳光下的me - 博客园

2020年11月

摘要： import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WordCountPlus { def main(args: Array[String]): Unit = { val s 阅读全文

posted @ 2020-11-11 14:13 阳光下的me 阅读(160) 评论(0) 推荐(0)

2019年11月

Flume采集数据到HDFS中，开头信息有乱码

摘要： Flume采集数据，在生成的HDFS文件中，总是有“SEQ!org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritablesɧÿ577ĂwОn=찅”信息，在Flume文档中介绍，hdfs.fileType默认为Sequenc 阅读全文

posted @ 2019-11-07 14:05 阳光下的me 阅读(630) 评论(0) 推荐(0)

Maven需改仓库地址为阿里云&修改本地仓库地址

摘要：修改Maven的配置文件 vim conf/settings.xml 修改为阿里云的远程仓库地址修改本地仓库的地址在settings标签內复制被注释的localRepository 修改为自己的地址阅读全文

posted @ 2019-11-02 20:30 阳光下的me 阅读(1701) 评论(0) 推荐(0)

2018年9月

idea+Windows+hadoop本地调试

摘要： 1、下载hadoop-2.6.0.tar.gz包到本地我解压后放入D:\hadoop-2.6.0-cdh5.9.3\ https://github.com/steveloughran/winutils.git 选择相应的版本下载hadoop.dll、winutils.exe文件放入D:\hado 阅读全文

posted @ 2018-09-07 19:37 阳光下的me 阅读(2522) 评论(0) 推荐(0)

2018年7月

Livy submit mr、spark job

摘要： 1、下载 livy wget http://mirrors.hust.edu.cn/apache/incubator/livy/0.5.0-incubating/livy-0.5.0-incubating-bin.zip 2、解压安装依赖环境变量 export SPARK_HOME=/opt/ap 阅读全文

posted @ 2018-07-17 20:31 阳光下的me 阅读(269) 评论(0) 推荐(0)

2018年6月

CDH 查找hive执行过的sql语句

摘要：首先找到这个jobid 可以看到这个job的执行时间很长是被人工kill掉的在cdh里面设置日志的筛选条件根据关键字 FDM.T03_OFF_LOAN_APP_MA 筛选日志时间设置开始时间我们都知道hive语句是需要翻译成mr的，所以日志开始时间要早于 SubmitTime 结束时间设阅读全文

posted @ 2018-06-12 09:41 阳光下的me 阅读(970) 评论(0) 推荐(0)

2018年3月

sqoop 常见错误以及处理方式

摘要： Oracle: Connection Reset Errors 错误代码 11/05/26 16:23:47 INFO mapred.JobClient: Task Id : attempt_201105261333_0002_m_000002_0, Status : FAILED java.lang.RuntimeException: java.lang.RuntimeException: j... 阅读全文

posted @ 2018-03-13 15:05 阳光下的me 阅读(2491) 评论(0) 推荐(0)

hue厉害啊

摘要：可以看日志 mr日志可以看执行计划分析数据倾斜，性能瓶颈的利器啊可以看表结构阅读全文

posted @ 2018-03-06 15:25 阳光下的me 阅读(113) 评论(0) 推荐(0)

hive访问es的问题

摘要：问题 hive访问es 一个普通的count(*)操作开启一个mr任务进度，总是停留在5% 查看该job一共启动5个task 选择一个进入发现把任务分发到不同的节点查看日志发现是三台es集群的9200端口没有对相应机器开放阅读全文

posted @ 2018-03-06 15:12 阳光下的me 阅读(224) 评论(0) 推荐(0)

2018年2月

hive读取es里面的数据建表时，时间格式不能转换问题

摘要：用hive读取es里面的数据，建表。时间类型的数据不能接受的问题问题描述：spark读取指定索引/类型的数据，其中有自定义格式的日期数据，读取该日期时报异常，日期定义格式："estime" : {"type" : "date","format" : "yyyy-MM-dd HH:mm:ss"}, 阅读全文

posted @ 2018-02-27 11:04 阳光下的me 阅读(3189) 评论(0) 推荐(0)

公告