摘要: 虽然排序算法烂大街了,但是哥依然用java实现了一遍,只为自己练练手,后面可以时不时的回头看看。。。仅此而已,各位可以提意见,莫喷!!一、冒泡排序 基本思想:在要排序的一组数中,对当前还未排好序的范围内的全部数,自上而下对相邻的两个数依次进行比较和调整,让较大的数往下沉,较小的往上冒。即:每当... 阅读全文
posted @ 2015-12-21 17:20 玖疯 阅读(5637) 评论(1) 推荐(1) 编辑
摘要: 基于hadoop2.6.2。。。。一张图Server启动,Client访问。。。。。RPC是IPC的一种,IPC还有另外一种LPC,相关请看参考中的3使用hadoop ipc步骤: 1.定义RPC协议 2.实现RPC协议 3.构造和启动RPC SERVER 4.构造RPC Client并发送... 阅读全文
posted @ 2015-11-29 17:49 玖疯 阅读(2188) 评论(2) 推荐(3) 编辑
摘要: apache下一个版本(1.6)将会带来一个新的组件KafKaChannel,顾名思义就是使用kafka做channel,当然在CDH5.3版本已经存在这个channel。 大伙知道,常用的channel主要有三个: 1、memory channel:用内存做channel,优点是速度最快,... 阅读全文
posted @ 2015-03-01 18:40 玖疯 阅读(7522) 评论(2) 推荐(1) 编辑
摘要: 本文hadoop版本为最新版本2.6。Configuration做为Hadoop的一个基础功能承担着重要的责任,为Yarn、HSFS、MapReduce、NFS、调度器等提供参数的配置、配置文件的分布式传输(实现了Writable接口)等重要功能。 Hadoop的加载配置文件的功能没有采用Ja... 阅读全文
posted @ 2014-12-28 15:00 玖疯 阅读(5156) 评论(0) 推荐(0) 编辑
摘要: 在使用flume中发现由于网络、HDFS等其它原因,使得经过Flume收集到HDFS上得日志有一些异常,表现为:1、有未关闭的文件:以tmp(默认)结尾的文件。加入存到HDFS上得文件应该是gz压缩文件,以tmp为结尾的文件就无法使用;2、有大小为0的文件,比如gz压缩文件大小为0,我们单独拿下这个... 阅读全文
posted @ 2014-12-11 12:11 玖疯 阅读(2040) 评论(2) 推荐(0) 编辑
摘要: 以前总是用java写一些MapReduce程序现举一个例子使用Python通过Hadoop Streaming来实现Mapreduce。 任务描述: HDFS上有两个目录/a和/b,里面数据均有3列,第一列都是id,第二列是各自的业务类型(这里假设/a对应a,/b对应b),第三列是一个jso... 阅读全文
posted @ 2014-11-23 12:45 玖疯 阅读(2621) 评论(0) 推荐(0) 编辑
摘要: Flume-NG中的hdfs sink的路径名(对应参数"hdfs.path",不允许为空)以及文件前缀(对应参数"hdfs.filePrefix")支持正则解析时间戳自动按时间创建目录及文件前缀。 在实际使用中发现Flume内置的基于正则的解析方式非常耗时,有非常大的提升空间。如果你不需要配... 阅读全文
posted @ 2014-10-10 09:10 玖疯 阅读(5045) 评论(9) 推荐(2) 编辑
摘要: 这里只考虑flume本身的一些东西,对于JVM、HDFS、HBase等得暂不涉及。。。。一、关于Source: 1、spool-source:适合静态文件,即文件本身不是动态变化的; 2、avro source可以适当提高线程数量来提高此source性能; 3、ThriftSource在使用时... 阅读全文
posted @ 2014-10-09 17:25 玖疯 阅读(13396) 评论(5) 推荐(6) 编辑
摘要: Spark Streaming是一个新的实时计算的利器,而且还在快速的发展。它将输入流切分成一个个的DStream转换为RDD,从而可以使用Spark来处理。它直接支持多种数据源:Kafka, Flume, Twitter, ZeroMQ , TCP sockets等,有一些可以操作的函数:ma... 阅读全文
posted @ 2014-07-24 19:26 玖疯 阅读(6770) 评论(2) 推荐(1) 编辑
摘要: Flume的内置监控怎么整?这个问题有很多人问。目前了解到的信息是可以使用Cloudera Manager、Ganglia有图形的监控工具,以及从浏览器获取json串,或者自定义向其他监控系统汇报信息。那监控的信息是什么呢?就是各个组件的统计信息,比如成功接收的Event数量、成功发送的Even... 阅读全文
posted @ 2014-07-15 22:11 玖疯 阅读(5110) 评论(0) 推荐(2) 编辑
摘要: SpillableMemoryChannel是1.5版本新增的一个channel。这个channel优先将evnet放在内存中,一旦内存达到设定的容量就使用file channel写入磁盘。然后读的时候会按照顺序读取:会通过一个DrainOrderQueue来保证不管是内存中的还是溢出(本文的“... 阅读全文
posted @ 2014-07-04 23:04 玖疯 阅读(2876) 评论(1) 推荐(1) 编辑
摘要: Spark目前支持多种分布式部署方式:一、Standalone Deploy Mode;二Amazon EC2、;三、Apache Mesos;四、Hadoop YARN。第一种方式是单独部署,不需要有依赖的资源管理器,其它三种都需要将spark部署到对应的资源管理器上。 除了部署的多种方式之... 阅读全文
posted @ 2014-07-02 09:20 玖疯 阅读(3111) 评论(0) 推荐(0) 编辑
摘要: 我们在MapReduce中TextInputFormat分片和读取分片数据源码级分析 这篇中以TextInputFormat为例讲解了InputFormat的分片过程以及RecordReader读取分片数据的过程。接下来咱们分析TableInputFormat的分片信息和数据读取过程。 Tab... 阅读全文
posted @ 2014-06-28 12:59 玖疯 阅读(5352) 评论(0) 推荐(1) 编辑
摘要: InputFormat主要用于描述输入数据的格式(我们只分析新API,即org.apache.hadoop.mapreduce.lib.input.InputFormat),提供以下两个功能: (1)数据切分:按照某个策略将输入数据切分成若干个split,以便确定MapTask个数以及对应的s... 阅读全文
posted @ 2014-06-27 18:27 玖疯 阅读(4903) 评论(1) 推荐(1) 编辑
摘要: 我们曾经在Flume-NG中的Channel与Transaction关系(原创)这篇文章中说了channel和Transaction的关系,但是在source和sink中都会使用Transaction,那么Transaction的并发性如何? Transaction是介于channel和sou... 阅读全文
posted @ 2014-06-21 16:01 玖疯 阅读(1875) 评论(2) 推荐(0) 编辑