摘要: 如果要经常判断 1 个元素是否存在,你会怎么做?很容易想到使用哈希表(HashSet、HashMap),将元素作为 key 去查找,时间复杂度:O(1),但是空间利用率不高,需要占用比较多的内存资源。 如果需要编写一个网络爬虫去爬10亿个网站数据,为了避免爬到重复的网站,如何判断某个网站是否爬过?很 阅读全文
posted @ 2020-11-05 22:37 guoyu1 阅读(76) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/zhanglh046/article/details/78517478 使用HBase可能会遇到各种问题,有些是系统本身的设计的问题,有些是使用的问题,常见的问题:FULL GC异常导致宕机,RIT问题,写吞吐量太低以及读延迟较大。 一般情况下,读请求延迟 阅读全文
posted @ 2020-11-05 22:02 guoyu1 阅读(637) 评论(0) 推荐(0)
摘要: 1、Hbase为什么写比读快 (1)根本原因是hbase的存储引擎用的是LSM树,是一种面向磁盘的数据结构: Hbase底层的存储引擎为LSM-Tree(Log-Structured Merge-Tree)。LSM核心思想的核心就是放弃部分读能力,换取写入的最大化能力。LSM Tree它的核心思路其 阅读全文
posted @ 2020-11-05 21:11 guoyu1 阅读(1307) 评论(0) 推荐(0)
摘要: 目录: 一 、数据倾斜介绍与定位 二、解决方法一:聚合数据源 三、解决方法二:提高 shuffle 操作 reduce 并行度 四、解决方法三:将 reduce join 转换为 map join 五 、解决方法四:sample 采样倾斜 key 进行两次 join 六、解决方法之五:使用随机数以及 阅读全文
posted @ 2020-11-05 11:46 guoyu1 阅读(121) 评论(0) 推荐(0)