会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大数据技术派
关注公众号:大数据技术派,回复“资料”,领取1000G资料。
首页
联系
订阅
管理
上一页
1
···
3
4
5
6
7
8
9
10
11
···
13
下一页
2021年11月6日
Redis去重方法
摘要: 这篇文章主要介绍了Redis实现唯一计数的3种方法分享,本文讲解了基于SET、基于 bit、基于 HyperLogLog三种方法,需要的朋友可以参考下 唯一计数是网站系统中十分常见的一个功能特性,例如网站需要统计每天访问的人数 unique visitor (也就是 UV)。计数问题很常见,但解决起
阅读全文
posted @ 2021-11-06 00:48 大数据技术派
阅读(1110)
评论(0)
推荐(0)
2021年11月4日
Hive计算最大连续登陆天数
摘要: 关注公众号:大数据技术派,回复: 资料,领取1024G资料。 强哥说他发现了财富密码,最近搞了一套股票算法,其中有一点涉及到股票连续涨停天数的计算方法,我们都知道股票周末是不开市的,这里有个断层,需要一点技巧。我问是不是时间序列,他说我瞎扯,我也知道自己是瞎扯。问他方法,他竟然不告诉我,这么多年的兄
阅读全文
posted @ 2021-11-04 08:40 大数据技术派
阅读(1719)
评论(4)
推荐(2)
2021年11月1日
Flink计算pv和uv的通用方法
摘要: Flink系列文章 第01讲:Flink 的应用场景和架构模型 第02讲:Flink 入门程序 WordCount 和 SQL 实现 第03讲:Flink 的编程模型与其他框架比较 第04讲:Flink 常用的 DataSet 和 DataStream API 第05讲:Flink SQL & Ta
阅读全文
posted @ 2021-11-01 13:32 大数据技术派
阅读(2788)
评论(2)
推荐(2)
2021年10月30日
Spark面试题整理(三)
摘要: 1、为什么要进行序列化序列化? 可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。 2、Yarn中的container是由谁负责销毁的,在Hadoop Mapreduce中container可以复用么? ApplicationMaster负责销毁,在
阅读全文
posted @ 2021-10-30 10:31 大数据技术派
阅读(379)
评论(0)
推荐(0)
2021年10月28日
Spark面试题(二)
摘要: 首发于我的个人博客:Spark面试题(二) 1、Spark有哪两种算子? Transformation(转化)算子和Action(执行)算子。 2、Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子? 在我们的开发过程中,能避免则尽可能避免使用reduceByKey、join、distin
阅读全文
posted @ 2021-10-28 22:05 大数据技术派
阅读(408)
评论(0)
推荐(0)
2021年10月26日
Spark面试题
摘要: Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuf
阅读全文
posted @ 2021-10-26 23:39 大数据技术派
阅读(1372)
评论(0)
推荐(0)
2021年10月24日
Hadoop面试题(四)——YARN
摘要: 1、简述hadoop1与hadoop2 的架构异同 1)加入了yarn解决了资源调度的问题。 2)加入了对zookeeper的支持实现比较可靠的高可用。 2、为什么会产生 yarn,它解决了什么问题,有什么优势? 1)Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦。 2)Yarn上
阅读全文
posted @ 2021-10-24 14:39 大数据技术派
阅读(372)
评论(0)
推荐(0)
2021年10月23日
Hive面试题整理(一)
摘要: 1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆) 1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 (1)key分布不均匀; (2)业务数据本身的特性; (3)建
阅读全文
posted @ 2021-10-23 11:04 大数据技术派
阅读(861)
评论(0)
推荐(0)
2021年10月16日
Hadoop面试题总结(三)——MapReduce
摘要: 1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? 1)序列化和反序列化 (1)序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 (2)反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。 (3)
阅读全文
posted @ 2021-10-16 13:41 大数据技术派
阅读(625)
评论(0)
推荐(1)
2021年10月13日
Hadoop面试题总结(二)——HDFS
摘要: 1、 HDFS 中的 block 默认保存几份? 默认保存3份 2、HDFS 默认 BlockSize 是多大? 默认64MB 3、负责HDFS数据存储的是哪一部分? DataNode负责数据存储 4、SecondaryNameNode的目的是什么? 他的目的使帮助NameNode合并编辑日志,减少
阅读全文
posted @ 2021-10-13 12:53 大数据技术派
阅读(732)
评论(0)
推荐(1)
上一页
1
···
3
4
5
6
7
8
9
10
11
···
13
下一页
公告