大数据之路

博客园 首页 新随笔 联系 订阅 管理

08 2019 档案

摘要:一、概述 hbase 写入优化除了参数配置之外,很大的一块要考虑避免region的热点问题,避免region 热点问题,主要的目的是提高hbase 数据表rowkey的分散。结合实际情况主要有以下几个办法 1.1 rowkey的创建规则 避免, 比如 通过rowkey前几位的hash。业务规则避免, 阅读全文
posted @ 2019-08-25 21:51 小潘 阅读(640) 评论(0) 推荐(0)

摘要:目前正在使用tispark 进行离线计算,简单记录一下操作过程 一、技术验证 解决方案: 使用tispark 直接访问tidb的数据,采用spark的lag函数计算 SELECT billid,MAX(Diff) AS MaxHVDiff,MIN(Diff) AS MinHVDiff, '20190 阅读全文
posted @ 2019-08-22 10:59 小潘 阅读(1166) 评论(0) 推荐(0)