HDP项目经验 - 随笔分类 - 小小分析猿

Hive项目经验

摘要：1.hive的数据传输 Hive 中的 Null 在底层是以“\N”来存储，而 MySQL 中的 Null 在底层就是 Null，为了保证数据两端的一致性。在导出数据时采用--input-null-string 和--input-null-non-string 两个参数。导入数据时采用--nul 阅读全文

posted @ 2020-09-13 21:59 小小分析猿阅读(290) 评论(0) 推荐(0)

Flume项目经验

摘要：1.Channel的选择 memory channel 速度快，但可能会造成数据丢失 file channel 不会造成数据丢失，安全性高，但速度相对较慢也可以选择kafka channel ，省去了sink 阶段，提高传输效率 2.FileChannel 优化通过配置 dataDirs 指向多阅读全文

posted @ 2020-09-13 21:51 小小分析猿阅读(270) 评论(0) 推荐(0)

Kafka项目经验

摘要：1.Kafka 压测用 Kafka 官方自带的脚本，对 Kafka 进行压测。Kafka 压测时，可以查看到哪个地方出现了瓶颈（CPU，内存，网络 IO）。一般都是网络 IO 达到瓶颈。 kafka-consumer-perf-test.sh kafka-producer-perf-test.s 阅读全文

posted @ 2020-09-13 21:36 小小分析猿阅读(232) 评论(0) 推荐(0)

HDFS参数调优

摘要：hdfs-site.xml调优： 1.dfs.namenode.handler.count=20 * log2(Cluster Size) 比如集群规模为 8 台时，此参数设置为 60 NameNode 有一个工作线程池，用来处理不同 DataNode 的并发心跳以及客户端并发的元数据操作。对于大阅读全文

posted @ 2020-07-25 17:39 小小分析猿阅读(893) 评论(0) 推荐(0)

HDFS项目经验

摘要：一.项目经验： 1.hdfs设置多目录 why：当hdfs存储空间紧张，需要对datanode节点进行磁盘扩展 what：（1）在 hdfs-site.xml 文件中配置多目录，注意新挂载磁盘的访问权限问题 <property> <name>dfs.datanode.data.dir</name> 阅读全文

posted @ 2020-07-25 17:11 小小分析猿阅读(257) 评论(0) 推荐(0)

小小分析猿

随笔分类 - HDP项目经验

公告