摘要: 配置前先把域名映射配好哈 详情参考我的其他随笔(已对随笔分类) 下载好hdfs.tar.gz 后 在/home/ldy下 mkdir apps/ tar -xzvf hdfs.tar.gz -C /home/ldy/apps/ #专门用来安装hdfs 和jdk的 修改环境变量:vim /etc/pr 阅读全文
posted @ 2019-07-18 13:02 小小分析猿 阅读(487) 评论(0) 推荐(0) 编辑
摘要: Constructor threw exception; nested exception is java.lang.ClassCastException: com.fasterxml.jackson.datatype.jsr310.JavaTimeModule cannot be cast to 阅读全文
posted @ 2021-03-05 11:56 小小分析猿 阅读(528) 评论(0) 推荐(0) 编辑
摘要: 将hadoop-lzo.jar放入hadoop/share/hadoop/common/ 修改core-site.xml <property> <name>io.compression.codecs</name> <value> org.apache.hadoop.io.compress.GzipC 阅读全文
posted @ 2021-03-02 18:52 小小分析猿 阅读(77) 评论(0) 推荐(0) 编辑
摘要: vim sqoop-env.sh export HADOOP_HOME=/apps/hadoop export HADOOP_MAPRED_HOME=/apps/hadoop export HIVE_HOME=/apps/hive export ZOOKEEPER_HOME=/apps/zookee 阅读全文
posted @ 2021-03-01 21:10 小小分析猿 阅读(80) 评论(0) 推荐(0) 编辑
摘要: file-flume-kafka : a1.sources=r1 a1.channels=c1 c2 # configure source a1.sources.r1.type = TAILDIR a1.sources.r1.positionFile = /apps/flume/test/log_p 阅读全文
posted @ 2021-02-23 12:06 小小分析猿 阅读(73) 评论(0) 推荐(0) 编辑
摘要: 拦截器主要分两种:ETL 拦截器、日志类型区分拦截器。 ETL 拦截器主要用于过滤时间戳不合法和 Json 数据不完整的日志日志类型区分拦截器主要用于,将启动日志和事件日志区分开来,方便发往 Kafka 的不同Topic。 pom.xml <?xml version="1.0" encoding=" 阅读全文
posted @ 2021-02-23 11:59 小小分析猿 阅读(1298) 评论(0) 推荐(0) 编辑
摘要: 为什么需要自定义UDF, UDTF函数 因为一般event_log的json数据数据较复杂,处理event_log时需要先利用UDF, UDTF函数对其提取操作, 然后导入至dwd_base_event_log表,再根据en将kv数据导入对应的event表 event json数据样本: 16139 阅读全文
posted @ 2021-02-23 11:30 小小分析猿 阅读(543) 评论(0) 推荐(0) 编辑
摘要: 1.hive的数据传输 Hive 中的 Null 在底层是以“\N”来存储,而 MySQL 中的 Null 在底层就是 Null,为了 保证数据两端的一致性。在导出数据时采用--input-null-string 和--input-null-non-string 两个参 数。导入数据时采用--nul 阅读全文
posted @ 2020-09-13 21:59 小小分析猿 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 1.Channel的选择 memory channel 速度快,但可能会造成数据丢失 file channel 不会造成数据丢失,安全性高,但速度相对较慢 也可以选择kafka channel ,省去了sink 阶段,提高传输效率 2.FileChannel 优化 通过配置 dataDirs 指向多 阅读全文
posted @ 2020-09-13 21:51 小小分析猿 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 1.Kafka 压测 用 Kafka 官方自带的脚本,对 Kafka 进行压测。Kafka 压测时,可以查看到哪个地方出 现了瓶颈(CPU,内存,网络 IO)。一般都是网络 IO 达到瓶颈。 kafka-consumer-perf-test.sh kafka-producer-perf-test.s 阅读全文
posted @ 2020-09-13 21:36 小小分析猿 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 注意看后面的报错类型 1.文件不存在 -- 在对应服务器添加文件 2. 文件没有执行权限 -- chmod 777 xxx 3.文件格式不是unix -- 在notepad++ 将文件改成unix 阅读全文
posted @ 2020-09-08 21:59 小小分析猿 阅读(213) 评论(0) 推荐(0) 编辑