2016年12月27日

摘要： Spark2.0,自定义累加器阅读全文

posted @ 2016-12-27 11:11 Namhwik 阅读(3578) 评论(0) 推荐(0)

2016年12月12日

摘要： HashMap和Hashtable的比较是Java面试中的常见问题，用来考验程序员是否能够正确使用集合类以及是否可以随机应变使用多种思路解决问题。HashMap的工作原理、ArrayList与Vector的比较以及这个问题是有关Java 集合框架的最经典的问题。Hashtable是个过时的集合类，存阅读全文

posted @ 2016-12-12 17:25 Namhwik 阅读(170) 评论(0) 推荐(0)

排序算法整理

摘要：阅读全文

posted @ 2016-12-12 17:22 Namhwik 阅读(118) 评论(0) 推荐(0)

2016年11月14日

Spark 累加器

摘要：由于spark是分布式的计算，所以使得每个task间不存在共享的变量，而为了实现共享变量spark实现了两种类型 - 累加器与广播变量，对于其概念与理解可以参考：共享变量(广播变量和累加器) 。可能需要注意：Spark累加器(Accumulator)陷阱及解决办法因此，我们便可以利用累加器与广播阅读全文

posted @ 2016-11-14 00:44 Namhwik 阅读(2068) 评论(0) 推荐(0)

2016年10月16日

RDD与DataFrame的转换

摘要： RDD与DataFrame转换1. 通过反射的方式来推断RDD元素中的元数据。因为RDD本身一条数据本身是没有元数据的，例如Person，而Person有name,id等，而record是不知道这些的，但是变成DataFrame背后一定知道，通过反射的方式就可以了解到背后这些元数据，进而转换成Dat 阅读全文

posted @ 2016-10-16 21:59 Namhwik 阅读(7097) 评论(0) 推荐(0)

Scala笔记整理

摘要：创建java.math.BigInteger实例： var big = new java .math.BigInteget(“12345678”) 对数组进行访问：圆括号形式 val greetingStrings :Array[String] = new Array[String] (3) gre 阅读全文

posted @ 2016-10-16 21:51 Namhwik 阅读(955) 评论(0) 推荐(0)

Spark RDD

摘要： RDD:基于内存的集群计算容错抽象分布式内存抽象的概念弹性分布式数据集（RDD），它具备MapReduce等数据流模型的容错特性，并且允许开发人员在大型集群上执行基于内存的计算。为了有效地实现容错，RDD提供了一种高度受限的共享内存，即RDD是只读的，并且只能通过其他 RDD上的批量操作来创建阅读全文

posted @ 2016-10-16 21:38 Namhwik 阅读(497) 评论(0) 推荐(0)

Hbase的flush机制

摘要： Hbase Flush机制最小Flush单元为HRegion,尽量减少CF数量以减少HStrore数量从而减少MemStore的数量，最终减少每次Flush的开销。1.Region级别触发条件： a) hbase.hregion.memstore.flush.size Region中任意MemSto 阅读全文

posted @ 2016-10-16 21:36 Namhwik 阅读(3920) 评论(0) 推荐(0)

2016年12月27日

2016年12月12日

2016年11月14日

2016年10月16日

公告