2020 年 11月 5 日随笔档案 - guoyu1

2020年11月5日

摘要：如果要经常判断 1 个元素是否存在，你会怎么做？很容易想到使用哈希表（HashSet、HashMap），将元素作为 key 去查找，时间复杂度：O(1)，但是空间利用率不高，需要占用比较多的内存资源。如果需要编写一个网络爬虫去爬10亿个网站数据，为了避免爬到重复的网站，如何判断某个网站是否爬过？很阅读全文

posted @ 2020-11-05 22:37 guoyu1 阅读(81) 评论(0) 推荐(0)

hbase读性能优化

摘要： https://blog.csdn.net/zhanglh046/article/details/78517478 使用HBase可能会遇到各种问题，有些是系统本身的设计的问题，有些是使用的问题，常见的问题：FULL GC异常导致宕机，RIT问题，写吞吐量太低以及读延迟较大。一般情况下，读请求延迟阅读全文

posted @ 2020-11-05 22:02 guoyu1 阅读(639) 评论(0) 推荐(0)

Hbase为什么写比读快

摘要： 1、Hbase为什么写比读快（1）根本原因是hbase的存储引擎用的是LSM树，是一种面向磁盘的数据结构： Hbase底层的存储引擎为LSM-Tree(Log-Structured Merge-Tree)。LSM核心思想的核心就是放弃部分读能力，换取写入的最大化能力。LSM Tree它的核心思路其阅读全文

posted @ 2020-11-05 21:11 guoyu1 阅读(1318) 评论(0) 推荐(0)

spark调优--数据倾斜调优

摘要：目录：一、数据倾斜介绍与定位二、解决方法一：聚合数据源三、解决方法二：提高 shuffle 操作 reduce 并行度四、解决方法三：将 reduce join 转换为 map join 五、解决方法四：sample 采样倾斜 key 进行两次 join 六、解决方法之五：使用随机数以及阅读全文

posted @ 2020-11-05 11:46 guoyu1 阅读(125) 评论(0) 推荐(0)

打怪up

公告