随笔分类 -  HDP项目经验

摘要:1.hive的数据传输 Hive 中的 Null 在底层是以“\N”来存储,而 MySQL 中的 Null 在底层就是 Null,为了 保证数据两端的一致性。在导出数据时采用--input-null-string 和--input-null-non-string 两个参 数。导入数据时采用--nul 阅读全文
posted @ 2020-09-13 21:59 小小分析猿 阅读(290) 评论(0) 推荐(0)
摘要:1.Channel的选择 memory channel 速度快,但可能会造成数据丢失 file channel 不会造成数据丢失,安全性高,但速度相对较慢 也可以选择kafka channel ,省去了sink 阶段,提高传输效率 2.FileChannel 优化 通过配置 dataDirs 指向多 阅读全文
posted @ 2020-09-13 21:51 小小分析猿 阅读(270) 评论(0) 推荐(0)
摘要:1.Kafka 压测 用 Kafka 官方自带的脚本,对 Kafka 进行压测。Kafka 压测时,可以查看到哪个地方出 现了瓶颈(CPU,内存,网络 IO)。一般都是网络 IO 达到瓶颈。 kafka-consumer-perf-test.sh kafka-producer-perf-test.s 阅读全文
posted @ 2020-09-13 21:36 小小分析猿 阅读(232) 评论(0) 推荐(0)
摘要:hdfs-site.xml调优: 1.dfs.namenode.handler.count=20 * log2(Cluster Size) 比如集群规模为 8 台时,此参数设置为 60 NameNode 有一个工作线程池,用来处理不同 DataNode 的并发心跳以及客户端并发 的元数据操作。对于大 阅读全文
posted @ 2020-07-25 17:39 小小分析猿 阅读(893) 评论(0) 推荐(0)
摘要:一.项目经验: 1.hdfs设置多目录 why:当hdfs存储空间紧张,需要对datanode节点进行磁盘扩展 what:(1)在 hdfs-site.xml 文件中配置多目录,注意新挂载磁盘的访问权限问题 <property> <name>dfs.datanode.data.dir</name> 阅读全文
posted @ 2020-07-25 17:11 小小分析猿 阅读(257) 评论(0) 推荐(0)