2019年5月24日

Sqoop任务搬运数据出现重复

摘要: 问题描述 sqoop任务:sqlserver hdfs 运行时间:2019 05 23 00:05:30~00:37:03 sqoop任务运行成功,但是sqlserver搬运到hdfs的300W数据出现829条重复记录 问题影响 影响酒店下游任务报表数据不准确,需要重跑任务 当时临时解决方案 重跑该 阅读全文

posted @ 2019-05-24 19:39 AloneAli 阅读(2740) 评论(0) 推荐(0)

2019年5月9日

Flink任务写hdfs文件卡在openforwrite状态

摘要: 环境 flink 1.6.3 hadoop 2.5.0 cdh5.2.0 问题描述 2019/04/24 10:26 业务方反馈 hive某个表查询数据不全,疑似上游的Flink任务处理数据有丢失 经过定位发现上游的flink任务写 /data/BaseData/flinksql/TCFlyIntB 阅读全文

posted @ 2019-05-09 20:51 AloneAli 阅读(6698) 评论(0) 推荐(1)

Flink Backpressure指标和机制

摘要: 页面上反压指标意义 为了判断是否进行反压,jobmanager会每50ms触发100次stack traces。 Web界面中显示阻塞在内部方法调用的stacktraces占所有的百分比。 例如,0.01,代表着100次中有一次阻塞在内部调用。 • OK: 0 (a java.util.ArrayD 阅读全文

posted @ 2019-05-09 20:28 AloneAli 阅读(3981) 评论(1) 推荐(0)

2014年11月21日

Hadoop完全分布式集群搭建

摘要: 搭建环境的时候参考了以下下文章:Ubuntu14.04下安装Hadoop2.4.0 (单机模式)Ubuntu14.04下安装Hadoop2.4.0 (伪分布模式)hadoop学习之hadoop完全分布式集群安装由于在Hadoop2.4.0版本下对于mapred-site.xml和yarn-site.... 阅读全文

posted @ 2014-11-21 13:09 AloneAli 阅读(602) 评论(0) 推荐(0)

导航