会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
sw_kong
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
14
下一页
2020年3月6日
LRU算法简单实现
摘要: 什么是LRU LRU(Least recently used,最近最少使用)算法根据数据的历史访问记录来进行淘汰数据,其核心思想是“如果数据最近被访问过,那么将来被访问的几率也更高” 距离现在最早使用的会被我们替换掉。不够形象的话我们看下面的例子。 size=3的缓存淘汰实现: 在插入元素1的时候,
阅读全文
posted @ 2020-03-06 14:15 sw_kong
阅读(328)
评论(0)
推荐(1)
2020年3月4日
Spark 3.0 动态分区裁剪(Dynamic Partition Pruning)
摘要: 静态分区裁剪(Static Partition Pruning) 用过 Spark 的同学都知道,Spark SQL 在查询的时候支持分区裁剪,比如我们如果有以下的查询: SELECT * FROM Sales_iteblog WHERE day_of_week = 'Mon' Spark 会自动进
阅读全文
posted @ 2020-03-04 16:04 sw_kong
阅读(3467)
评论(0)
推荐(1)
2020年3月3日
Hive中的数据分桶以及使用场景
摘要: hive官网关于桶表的介绍:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL+BucketedTables hive官网关于tablesample的介绍:https://cwiki.apache.org/confl
阅读全文
posted @ 2020-03-03 11:25 sw_kong
阅读(2174)
评论(0)
推荐(0)
2020年2月28日
spark广播变量定时更新
摘要: 广播变量 先来简单介绍下spark中的广播变量: 广播变量允许开发者缓存一个只读的变量在每台机器上面,而不是每个任务保存一份拷贝。例如,利用广播变量,我们能够以一种更有效率的方式将一个大数据量输入集合的副本分配给每个节点。Spark也尝试着利用有效的广播算法去分配广播变量,以减少通信的成本。 一个广
阅读全文
posted @ 2020-02-28 14:19 sw_kong
阅读(2978)
评论(0)
推荐(0)
2020年2月23日
Activemq、Rabbitmq、Rocketmq、Kafka的对比
摘要: 综上所述,各种对比之后,我个人倾向于是: 一般的业务系统要引入MQ,最早大家都用ActiveMQ,但是现在确实大家用的不多了,没经过大规模吞吐量场景的验证,社区也不是很活跃,所以大家还是算了吧,我个人不推荐用这个了; 后来大家开始用RabbitMQ,但是确实erlang语言阻止了大量的java工程师
阅读全文
posted @ 2020-02-23 18:51 sw_kong
阅读(361)
评论(0)
推荐(0)
2020年2月13日
消息队列常见面试问题小集合
摘要: 一、为什么使用消息队列?消息队列有什么优点和缺点?Kafka、ActiveMQ、RabbitMQ、RocketMQ 都有什么优点和缺点? 面试官心理分析 其实面试官主要是想看看: 第一,你知不知道你们系统里为什么要用消息队列这个东西? 不少候选人,说自己项目里用了 Redis、MQ,但是其实他并不知
阅读全文
posted @ 2020-02-13 10:13 sw_kong
阅读(1186)
评论(0)
推荐(0)
2020年1月22日
spark动态资源分配
摘要: spark动态资源调整其实也就是说的executor数目支持动态增减,动态增减是根据spark应用的实际负载情况来决定。 开启动态资源调整需要(on yarn情况下) 1.将spark.dynamicAllocation.enabled设置为true。意思就是启动动态资源功能 2.将spark.sh
阅读全文
posted @ 2020-01-22 16:16 sw_kong
阅读(9446)
评论(0)
推荐(0)
2020年1月21日
针对小文件的spark wholeTextFiles()
摘要: 场景:推送过来的数据文件数量很多,并且每个只有10-30M的大小 spark读取hdfs一般都是用textfile(),但是对于这种情况,如果使用textFile默认产生的分区数将与文件数目一致,产生大量的任务。 对应这种小文件,spark提供了一个特殊的api, wholeTextFiles(),
阅读全文
posted @ 2020-01-21 13:34 sw_kong
阅读(1770)
评论(0)
推荐(0)
intel关于spark gc的优化建议
摘要: Apache Spark由于其出色的性能、简单的接口和丰富的分析和计算库而获得了广泛的行业应用。与大数据生态系统中的许多项目一样,Spark在Java虚拟机(JVM)上运行。因为Spark可以在内存中存储大量数据,因此它主要依赖于Java的内存管理和垃圾收集(GC)。但是现在,了解Java的GC选项
阅读全文
posted @ 2020-01-21 13:10 sw_kong
阅读(1843)
评论(0)
推荐(0)
spark on yarn container分配极端倾斜
摘要: 环境:CDH5.13.3 spark2.3 在提交任务之后,发现executor运行少量几台nodemanager,而其他nodemanager没有executor分配。 测试环境通过spark-shell模拟如下: 第一次尝试分配6个exeutor,具体如下 spark2-shell \ --dr
阅读全文
posted @ 2020-01-21 10:25 sw_kong
阅读(1217)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
14
下一页
公告