dairui130

导航

随笔分类 -  flume

flume遇到的问题
摘要:原因:checkpoint文件夹,不为空。 解决:设置空的checkpoint文件夹。或删除checkpoint文件夹下的内容。 原因:java堆内存默认20m,数据量大时oom。 解决: export JAVA_OPTS="-Xms2048m -Xmx2048m -Xss256k -Xmn1g - 阅读全文

posted @ 2019-03-04 16:57 dairui130 阅读(1190) 评论(0) 推荐(0)

Hive ORC + SNAPPY
摘要:Hive orc 格式 + snappy 压缩是比较常用的存储加压缩格式。 今天处理下面的场景时,解决了一些问题,记录下来: flume消费kafka的数据实时写入hdfs,通过创建分区表,t + 1 时,需要看到昨天的数据: flume 通过snappy 将数据写入hdfs,可以通过在fliume 阅读全文

posted @ 2019-03-01 19:02 dairui130 阅读(6026) 评论(0) 推荐(0)

Kafka auto.offset.reset
摘要:要从头消费kafka的数据,可以通过以下参数: Kafka auto.offset.reset = earliest 阅读全文

posted @ 2019-02-28 19:08 dairui130 阅读(343) 评论(0) 推荐(0)

Flume source 支持的type类型
摘要:Flume是一个分布式的高可用的消费组件。通过修改配置文件,可以启动不同的agent处理不同来源的数据。 agent包含source,channel,sink三个组件。今天我们学习下source的type。 1. spooldir 向指定目录中传输文件,发现flume收集到了该文件,将文件中的每一行 阅读全文

posted @ 2019-02-28 11:42 dairui130 阅读(1796) 评论(0) 推荐(0)

mysql变更数据的捕获和入库
摘要:问题:涉及状态的信息,mysql中是update的,缺少中间状态的记录。数据分析中需要这部分数据。 思路:后端服务通过监控某张表的某个字段,根据mysql的binlog文件,还原数据,发送到kafka。我们消费kafka中的数据,最终在hive的ods层形成表更数据表。 方案设计: 方案4中需要注意 阅读全文

posted @ 2019-02-27 21:15 dairui130 阅读(340) 评论(0) 推荐(0)