会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
徐软件的博客
或有时而不彰
博客园
首页
新随笔
联系
订阅
管理
2019年3月21日
Hbase 永久 Region-In-Transition 的查错记录
摘要: 状态:部分 region 的状态为 FAILED_CLOSE,且一直停留在 RIT,不可服务。 1. 首先,到 hbase region 上查日志(/var/log/hbase/),看到是 hdfs 文件的问题(参考 https://www.cnblogs.com/cenliang/p/848501
阅读全文
posted @ 2019-03-21 12:11 徐软件
阅读(726)
评论(0)
推荐(0)
2019年3月20日
hbase meta中分区信息错误的记录
摘要: bulk write hbase 时遇到下面的错误: sudo -u hbase hbase hbck 检查,存在 inconsistence,其中表 ap:users_v2 有错误,但显示为 sudo -u hbase hbase hbck -repair 修复,解决了 inconsistence
阅读全文
posted @ 2019-03-20 14:35 徐软件
阅读(770)
评论(0)
推荐(0)
2019年3月3日
spark aggregateByKey 时 java.lang.OutOfMemoryError: GC overhead limit exceeded
摘要: 最后发现有一个用户单日访问我们网站次数为 4千万,直接导致 aggregate 时内存不够。过滤掉该用户即可。
阅读全文
posted @ 2019-03-03 19:37 徐软件
阅读(316)
评论(0)
推荐(0)
2019年2月16日
在 aws emr 上,将 hbase table A 的数据,对 key 做 hash,写到另外一张 table B
摘要: 先 scan 原表,然后 bulkload 到新表。 采坑纪录1. bulkload 产生 hfile 前,需要先对 hash(key) 做 repartition,在 shuffle 的 read 阶段,产生了以下错误 原因:在 shuffle 的 read 阶段,会申请一个跟 block(或pa
阅读全文
posted @ 2019-02-16 09:47 徐软件
阅读(853)
评论(0)
推荐(1)
EMR 配置纪录(不断更新)
摘要: 日志路径 -> /var/log(软连接到 /mnt/var/log) 在 spark master 机器中,配置的路径为 其中关键的配置 local-dirs: 应用的本地文件,官方解释为: List of directories to store localized files in. An a
阅读全文
posted @ 2019-02-16 09:45 徐软件
阅读(297)
评论(0)
推荐(0)
2019年2月14日
使用 JvisualVM 监控 spark executor
摘要: 使用 JvisualVM,需要先配置 java 的启动参数 jmx 正常情况下,如下配置 然后如下连接即可 但在 spark 中,不能指定具体的 ip 和 port,于是需要如下配置(相关参数 spark.executor.extraJavaOptions) 然后找到具体的 container,使用
阅读全文
posted @ 2019-02-14 21:17 徐软件
阅读(589)
评论(3)
推荐(0)
2019年2月12日
YARN 集群的资源分配
摘要: YARN 集群在分配任务时,存在两种方式 1. DefaultResourceCalculator,只考虑内存(memory),每个 container 的 cpu 资源都分配 1 个。 2. DominantResourceCalculator,同时考虑内存(memory)和 cpu 资源。 在
阅读全文
posted @ 2019-02-12 22:38 徐软件
阅读(1426)
评论(0)
推荐(0)
spark bulkload hbase笔记
摘要: 1. 现有的三方包不能完全支持 - 官方:hbase-spark,不能设置 timestamp - unicredit/hbase-rdd:接口太复杂,不能同时支持多个 family 2. HFile 得是有序的,排序依据 KeyValue.KVComparator,于是我们自定义一个 Compar
阅读全文
posted @ 2019-02-12 14:00 徐软件
阅读(2545)
评论(3)
推荐(2)
2019年2月2日
记一个 protobuf 的 jar 包冲突
摘要: 尝试使用 spark 以 bulkload 的方式写 HBase 时,遇到一个问题,错误堆栈如下 一开始以为是找不到 com.google.protobuf.ByteString,怎么都没想明白。后来找同事讨论,确定问题是找不到 return 为 com.google.protobuf.ByteSt
阅读全文
posted @ 2019-02-02 20:26 徐软件
阅读(2542)
评论(0)
推荐(0)
2019年1月26日
Spark 写 Hive table 非常慢【解决】
摘要: 代码如下: dataFrame.createOrReplaceTempView("view_page_utm")val sql = s""" |insert overwrite table data_lake_v1.urchin_tracking_module PARTITION(cd='$date
阅读全文
posted @ 2019-01-26 21:08 徐软件
阅读(5826)
评论(0)
推荐(0)
下一页
公告