摘要: 摘要 加载数据到HBase的方式有多种,通过HBase API导入或命令行导入或使用第三方(如sqoop)来导入或使用MR来批量导入(耗费磁盘I/O,容易在导入的过程使节点宕机),但是这些方式不是慢就是在导入的过程的占用Region资料导致效率低下,今天要讲的就是利用HBase在HDFS存储原理及M 阅读全文
posted @ 2016-06-04 21:33 MOBIN 阅读(17530) 评论(1) 推荐(7) 编辑
摘要: 摘要 HBase只提供了一个基于字典排序的主键索引,在查询中你只能通过行键查询或扫描全表来获取数据,使用Phoenix提供的二级索引,可以避免在查询数据时全表扫描,提高查过性能,提升查询效率 测试环境: 数据约370万 数据格式:(数据来自搜狗实验室) 三节点集群(一主两从,hadoop和HBase 阅读全文
posted @ 2016-05-06 22:34 MOBIN 阅读(17475) 评论(1) 推荐(11) 编辑
摘要: 摘要: Eexecutor作为灵活且强大的异步执行框架,其支持多种不同类型的任务执行策略,提供了一种标准的方法将任务的提交过程和执行过程解耦开发,基于生产者-消费者模式,其提交任务的线程相当于生产者,执行任务的线程相当于消费者,并用Runnable来表示任务,Executor的实现还提供了对生命周期 阅读全文
posted @ 2016-04-26 20:24 MOBIN 阅读(60967) 评论(10) 推荐(64) 编辑
摘要: 摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行 阅读全文
posted @ 2016-04-20 21:20 MOBIN 阅读(25774) 评论(0) 推荐(8) 编辑
摘要: 摘要 Volatile是Java提供的一种弱同步机制,当一个变量被声明成volatile类型后编译器不会将该变量的操作与其他内存操作进行重排序。在某些场景下使用volatile代替锁可以减少代码量和使代码更易阅读。 Volatile特性 1.可见性:当一条线程对volatile变量进行了修改操作时, 阅读全文
posted @ 2016-04-19 14:05 MOBIN 阅读(5484) 评论(4) 推荐(9) 编辑
摘要: 摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行 阅读全文
posted @ 2016-04-12 21:35 MOBIN 阅读(26355) 评论(2) 推荐(9) 编辑
摘要: 摘要: 作为选择排序的改进版,堆排序可以把每一趟元素的比较结果保存下来,以便我们在选择最小/大元素时对已经比较过的元素做出相应的调整。 堆排序是一种树形选择排序,在排序过程中可以把元素看成是一颗完全二叉树,每个节点都大(小)于它的两个子节点,当每个节点都大于等于它的两个子节点时,就称为大顶堆,也叫堆 阅读全文
posted @ 2016-04-10 15:14 MOBIN 阅读(39666) 评论(14) 推荐(24) 编辑
摘要: 摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进 阅读全文
posted @ 2016-04-10 01:51 MOBIN 阅读(77495) 评论(3) 推荐(24) 编辑
摘要: 摘要: 通过隐式转换,程序员可以在编写Scala程序时故意漏掉一些信息,让编译器去尝试在编译期间自动推导出这些信息来,这种特性可以极大的减少代码量,忽略那些冗长,过于细节的代码。 使用方式: 1.将方法或变量标记为implicit 2.将方法的参数列表标记为implicit 3.将类标记为impli 阅读全文
posted @ 2016-04-04 13:54 MOBIN 阅读(33741) 评论(2) 推荐(32) 编辑
摘要: 摘要: Sprak Streaming属于Saprk API的扩展,支持实时数据流(live data streams)的可扩展,高吞吐(hight-throughput) 容错(fault-tolerant)的流处理。可以接受来自KafKa,Flume,ZeroMQ Kinesis Twitter 阅读全文
posted @ 2016-04-02 21:09 MOBIN 阅读(8451) 评论(0) 推荐(3) 编辑