flume - 随笔分类 - dairui130

flume遇到的问题

摘要：原因：checkpoint文件夹，不为空。解决：设置空的checkpoint文件夹。或删除checkpoint文件夹下的内容。原因：java堆内存默认20m，数据量大时oom。解决： export JAVA_OPTS="-Xms2048m -Xmx2048m -Xss256k -Xmn1g - 阅读全文

posted @ 2019-03-04 16:57 dairui130 阅读(1203) 评论(0) 推荐(0)

Hive ORC + SNAPPY

摘要：Hive orc 格式 + snappy 压缩是比较常用的存储加压缩格式。今天处理下面的场景时，解决了一些问题，记录下来： flume消费kafka的数据实时写入hdfs，通过创建分区表，t + 1 时，需要看到昨天的数据： flume 通过snappy 将数据写入hdfs，可以通过在fliume 阅读全文

posted @ 2019-03-01 19:02 dairui130 阅读(6044) 评论(0) 推荐(0)

Kafka auto.offset.reset

摘要：要从头消费kafka的数据，可以通过以下参数： Kafka auto.offset.reset = earliest 阅读全文

posted @ 2019-02-28 19:08 dairui130 阅读(345) 评论(0) 推荐(0)

Flume source 支持的type类型

摘要：Flume是一个分布式的高可用的消费组件。通过修改配置文件，可以启动不同的agent处理不同来源的数据。 agent包含source，channel，sink三个组件。今天我们学习下source的type。 1. spooldir 向指定目录中传输文件，发现flume收集到了该文件，将文件中的每一行阅读全文

posted @ 2019-02-28 11:42 dairui130 阅读(1802) 评论(0) 推荐(0)

mysql变更数据的捕获和入库

摘要：问题：涉及状态的信息，mysql中是update的，缺少中间状态的记录。数据分析中需要这部分数据。思路：后端服务通过监控某张表的某个字段，根据mysql的binlog文件，还原数据，发送到kafka。我们消费kafka中的数据，最终在hive的ods层形成表更数据表。方案设计：方案4中需要注意阅读全文

posted @ 2019-02-27 21:15 dairui130 阅读(348) 评论(0) 推荐(0)

dairui130

导航

公告

随笔分类 - flume

flume遇到的问题

Hive ORC + SNAPPY

Kafka auto.offset.reset

Flume source 支持的type类型

mysql变更数据的捕获和入库