大数据技术派

2021年11月6日

摘要：这篇文章主要介绍了Redis实现唯一计数的3种方法分享,本文讲解了基于SET、基于 bit、基于 HyperLogLog三种方法,需要的朋友可以参考下唯一计数是网站系统中十分常见的一个功能特性，例如网站需要统计每天访问的人数 unique visitor （也就是 UV）。计数问题很常见，但解决起阅读全文

posted @ 2021-11-06 00:48 大数据技术派阅读(1135) 评论(0) 推荐(0)

2021年11月4日

Hive计算最大连续登陆天数

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。强哥说他发现了财富密码，最近搞了一套股票算法，其中有一点涉及到股票连续涨停天数的计算方法，我们都知道股票周末是不开市的，这里有个断层，需要一点技巧。我问是不是时间序列，他说我瞎扯，我也知道自己是瞎扯。问他方法，他竟然不告诉我，这么多年的兄阅读全文

posted @ 2021-11-04 08:40 大数据技术派阅读(1767) 评论(4) 推荐(2)

2021年11月1日

Flink计算pv和uv的通用方法

摘要： Flink系列文章第01讲：Flink 的应用场景和架构模型第02讲：Flink 入门程序 WordCount 和 SQL 实现第03讲：Flink 的编程模型与其他框架比较第04讲：Flink 常用的 DataSet 和 DataStream API 第05讲：Flink SQL & Ta 阅读全文

posted @ 2021-11-01 13:32 大数据技术派阅读(2831) 评论(2) 推荐(2)

2021年10月30日

Spark面试题整理（三）

摘要： 1、为什么要进行序列化序列化？可以减少数据的体积，减少存储空间，高效存储和传输数据，不好的是使用的时候要反序列化，非常消耗CPU。 2、Yarn中的container是由谁负责销毁的，在Hadoop Mapreduce中container可以复用么？ ApplicationMaster负责销毁，在阅读全文

posted @ 2021-10-30 10:31 大数据技术派阅读(399) 评论(0) 推荐(0)

2021年10月28日

Spark面试题（二）

摘要：首发于我的个人博客：Spark面试题（二） 1、Spark有哪两种算子？ Transformation（转化）算子和Action（执行）算子。 2、Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子？在我们的开发过程中，能避免则尽可能避免使用reduceByKey、join、distin 阅读全文

posted @ 2021-10-28 22:05 大数据技术派阅读(435) 评论(0) 推荐(0)

2021年10月26日

Spark面试题

摘要： Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuf 阅读全文

posted @ 2021-10-26 23:39 大数据技术派阅读(1407) 评论(0) 推荐(0)

2021年10月24日

Hadoop面试题（四）——YARN

摘要： 1、简述hadoop1与hadoop2 的架构异同 1）加入了yarn解决了资源调度的问题。 2）加入了对zookeeper的支持实现比较可靠的高可用。 2、为什么会产生 yarn,它解决了什么问题，有什么优势？ 1）Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦。 2）Yarn上阅读全文

posted @ 2021-10-24 14:39 大数据技术派阅读(405) 评论(0) 推荐(0)

2021年10月23日

Hive面试题整理（一）

摘要： 1、Hive表关联查询，如何解决数据倾斜的问题？（☆☆☆☆☆） 1）倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。（1）key分布不均匀; （2）业务数据本身的特性; （3）建阅读全文

posted @ 2021-10-23 11:04 大数据技术派阅读(886) 评论(0) 推荐(0)

2021年10月16日

Hadoop面试题总结（三）——MapReduce

摘要： 1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? 1）序列化和反序列化（1）序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。（2）反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。（3）阅读全文

posted @ 2021-10-16 13:41 大数据技术派阅读(638) 评论(0) 推荐(1)

2021年10月13日

Hadoop面试题总结（二）——HDFS

摘要： 1、 HDFS 中的 block 默认保存几份？默认保存3份 2、HDFS 默认 BlockSize 是多大？默认64MB 3、负责HDFS数据存储的是哪一部分？ DataNode负责数据存储 4、SecondaryNameNode的目的是什么？他的目的使帮助NameNode合并编辑日志，减少阅读全文

posted @ 2021-10-13 12:53 大数据技术派阅读(756) 评论(0) 推荐(1)

大数据技术派

关注公众号：大数据技术派，回复“资料”，领取1000G资料。

公告