sw_kong

2020年3月6日

摘要：什么是LRU LRU（Least recently used，最近最少使用）算法根据数据的历史访问记录来进行淘汰数据，其核心思想是“如果数据最近被访问过，那么将来被访问的几率也更高” 距离现在最早使用的会被我们替换掉。不够形象的话我们看下面的例子。 size=3的缓存淘汰实现：在插入元素1的时候，阅读全文

posted @ 2020-03-06 14:15 sw_kong 阅读(330) 评论(0) 推荐(1)

2020年3月4日

Spark 3.0 动态分区裁剪（Dynamic Partition Pruning）

摘要：静态分区裁剪（Static Partition Pruning）用过 Spark 的同学都知道，Spark SQL 在查询的时候支持分区裁剪，比如我们如果有以下的查询： SELECT * FROM Sales_iteblog WHERE day_of_week = 'Mon' Spark 会自动进阅读全文

posted @ 2020-03-04 16:04 sw_kong 阅读(3500) 评论(0) 推荐(1)

2020年3月3日

Hive中的数据分桶以及使用场景

摘要： hive官网关于桶表的介绍：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL+BucketedTables hive官网关于tablesample的介绍：https://cwiki.apache.org/confl 阅读全文

posted @ 2020-03-03 11:25 sw_kong 阅读(2200) 评论(0) 推荐(0)

2020年2月28日

spark广播变量定时更新

摘要：广播变量先来简单介绍下spark中的广播变量：广播变量允许开发者缓存一个只读的变量在每台机器上面，而不是每个任务保存一份拷贝。例如，利用广播变量，我们能够以一种更有效率的方式将一个大数据量输入集合的副本分配给每个节点。Spark也尝试着利用有效的广播算法去分配广播变量，以减少通信的成本。一个广阅读全文

posted @ 2020-02-28 14:19 sw_kong 阅读(2982) 评论(0) 推荐(0)

2020年2月23日

Activemq、Rabbitmq、Rocketmq、Kafka的对比

摘要：综上所述，各种对比之后，我个人倾向于是：一般的业务系统要引入MQ，最早大家都用ActiveMQ，但是现在确实大家用的不多了，没经过大规模吞吐量场景的验证，社区也不是很活跃，所以大家还是算了吧，我个人不推荐用这个了；后来大家开始用RabbitMQ，但是确实erlang语言阻止了大量的java工程师阅读全文

posted @ 2020-02-23 18:51 sw_kong 阅读(363) 评论(0) 推荐(0)

2020年2月13日

消息队列常见面试问题小集合

摘要：一、为什么使用消息队列？消息队列有什么优点和缺点？Kafka、ActiveMQ、RabbitMQ、RocketMQ 都有什么优点和缺点？面试官心理分析其实面试官主要是想看看：第一，你知不知道你们系统里为什么要用消息队列这个东西？不少候选人，说自己项目里用了 Redis、MQ，但是其实他并不知阅读全文

posted @ 2020-02-13 10:13 sw_kong 阅读(1190) 评论(0) 推荐(0)

2020年1月22日

spark动态资源分配

摘要： spark动态资源调整其实也就是说的executor数目支持动态增减，动态增减是根据spark应用的实际负载情况来决定。开启动态资源调整需要（on yarn情况下） 1.将spark.dynamicAllocation.enabled设置为true。意思就是启动动态资源功能 2.将spark.sh 阅读全文

posted @ 2020-01-22 16:16 sw_kong 阅读(9483) 评论(0) 推荐(0)

2020年1月21日

针对小文件的spark wholeTextFiles()

摘要：场景：推送过来的数据文件数量很多，并且每个只有10-30M的大小 spark读取hdfs一般都是用textfile()，但是对于这种情况，如果使用textFile默认产生的分区数将与文件数目一致，产生大量的任务。对应这种小文件，spark提供了一个特殊的api， wholeTextFiles()，阅读全文

posted @ 2020-01-21 13:34 sw_kong 阅读(1780) 评论(0) 推荐(0)

intel关于spark gc的优化建议

摘要： Apache Spark由于其出色的性能、简单的接口和丰富的分析和计算库而获得了广泛的行业应用。与大数据生态系统中的许多项目一样，Spark在Java虚拟机(JVM)上运行。因为Spark可以在内存中存储大量数据，因此它主要依赖于Java的内存管理和垃圾收集(GC)。但是现在，了解Java的GC选项阅读全文

posted @ 2020-01-21 13:10 sw_kong 阅读(1856) 评论(0) 推荐(0)

spark on yarn container分配极端倾斜

摘要：环境：CDH5.13.3 spark2.3 在提交任务之后，发现executor运行少量几台nodemanager，而其他nodemanager没有executor分配。测试环境通过spark-shell模拟如下：第一次尝试分配6个exeutor,具体如下 spark2-shell \ --dr 阅读全文

posted @ 2020-01-21 10:25 sw_kong 阅读(1219) 评论(0) 推荐(0)

公告