会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Namhwik
克己守心
博客园
|
首页
|
新随笔
|
新文章
|
联系
|
订阅
|
管理
2016年12月27日
Spark2.0自定义累加器
摘要: Spark2.0,自定义累加器
阅读全文
posted @ 2016-12-27 11:11 Namhwik
阅读(3568)
评论(0)
推荐(0)
2016年12月12日
JAVA hashmap知识整理
摘要: HashMap和Hashtable的比较是Java面试中的常见问题,用来考验程序员是否能够正确使用集合类以及是否可以随机应变使用多种思路解决问题。HashMap的工作原理、ArrayList与Vector的比较以及这个问题是有关Java 集合框架的最经典的问题。Hashtable是个过时的集合类,存
阅读全文
posted @ 2016-12-12 17:25 Namhwik
阅读(163)
评论(0)
推荐(0)
排序算法整理
摘要:
阅读全文
posted @ 2016-12-12 17:22 Namhwik
阅读(117)
评论(0)
推荐(0)
2016年11月14日
Spark 累加器
摘要: 由于spark是分布式的计算,所以使得每个task间不存在共享的变量,而为了实现共享变量spark实现了两种类型 - 累加器与广播变量, 对于其概念与理解可以参考:共享变量(广播变量和累加器) 。可能需要注意:Spark累加器(Accumulator)陷阱及解决办法 因此,我们便可以利用累加器与广播
阅读全文
posted @ 2016-11-14 00:44 Namhwik
阅读(2060)
评论(0)
推荐(0)
2016年10月16日
RDD与DataFrame的转换
摘要: RDD与DataFrame转换1. 通过反射的方式来推断RDD元素中的元数据。因为RDD本身一条数据本身是没有元数据的,例如Person,而Person有name,id等,而record是不知道这些的,但是变成DataFrame背后一定知道,通过反射的方式就可以了解到背后这些元数据,进而转换成Dat
阅读全文
posted @ 2016-10-16 21:59 Namhwik
阅读(7088)
评论(0)
推荐(0)
Scala笔记整理
摘要: 创建java.math.BigInteger实例: var big = new java .math.BigInteget(“12345678”) 对数组进行访问:圆括号形式 val greetingStrings :Array[String] = new Array[String] (3) gre
阅读全文
posted @ 2016-10-16 21:51 Namhwik
阅读(949)
评论(0)
推荐(0)
Spark RDD
摘要: RDD:基于内存的集群计算容错抽象 分布式内存抽象的概念 弹性分布式数据集(RDD),它具备MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。 为了有效地实现容错,RDD提供了一种高度受限的共享内存,即RDD是只读的,并且只能通过其他 RDD上的批量操作来创建
阅读全文
posted @ 2016-10-16 21:38 Namhwik
阅读(489)
评论(0)
推荐(0)
Hbase的flush机制
摘要: Hbase Flush机制最小Flush单元为HRegion,尽量减少CF数量以减少HStrore数量从而减少MemStore的数量,最终减少每次Flush的开销。1.Region级别触发条件: a) hbase.hregion.memstore.flush.size Region中任意MemSto
阅读全文
posted @ 2016-10-16 21:36 Namhwik
阅读(3899)
评论(0)
推荐(0)
公告