02 2019 档案
摘要:先 scan 原表,然后 bulkload 到新表。 采坑纪录1. bulkload 产生 hfile 前,需要先对 hash(key) 做 repartition,在 shuffle 的 read 阶段,产生了以下错误 原因:在 shuffle 的 read 阶段,会申请一个跟 block(或pa
阅读全文
摘要:日志路径 -> /var/log(软连接到 /mnt/var/log) 在 spark master 机器中,配置的路径为 其中关键的配置 local-dirs: 应用的本地文件,官方解释为: List of directories to store localized files in. An a
阅读全文
摘要:使用 JvisualVM,需要先配置 java 的启动参数 jmx 正常情况下,如下配置 然后如下连接即可 但在 spark 中,不能指定具体的 ip 和 port,于是需要如下配置(相关参数 spark.executor.extraJavaOptions) 然后找到具体的 container,使用
阅读全文
摘要:YARN 集群在分配任务时,存在两种方式 1. DefaultResourceCalculator,只考虑内存(memory),每个 container 的 cpu 资源都分配 1 个。 2. DominantResourceCalculator,同时考虑内存(memory)和 cpu 资源。 在
阅读全文
摘要:1. 现有的三方包不能完全支持 - 官方:hbase-spark,不能设置 timestamp - unicredit/hbase-rdd:接口太复杂,不能同时支持多个 family 2. HFile 得是有序的,排序依据 KeyValue.KVComparator,于是我们自定义一个 Compar
阅读全文
摘要:尝试使用 spark 以 bulkload 的方式写 HBase 时,遇到一个问题,错误堆栈如下 一开始以为是找不到 com.google.protobuf.ByteString,怎么都没想明白。后来找同事讨论,确定问题是找不到 return 为 com.google.protobuf.ByteSt
阅读全文