08 2016 档案
摘要:zookeeper原理 zookeeper为了保证可靠性,不能用一台机器,而应该是一个集群 为了保证zookeeper集群数据能够一致,必须有一个拍板说了算的人,这就是leader,其他的是follower。 某一时刻集群里只能有且仅有一个leader。 leader可以执行增删改和查询操作,而fo
阅读全文
摘要:zookeeper的shell下操作 进入%ZK_HOME%/bin 执行zkCli.sh [-server ip:port] #如不指定,则连接本机 创建: create [-s] [-e] path data acl #创建数据节点 --其中 -s表示顺序节点 -e表示临时节点,两个都不加则是持
阅读全文
摘要:zookeeper集群的搭建 需要先安装jdk,并且配置jdk的环境变量 下载zookeeper的安装包 上传到linux集群环境下 解压安装包 tar -zxvf zookeeper-3.4.7.tar.gz 进入conf目录,复制zoo-sample.cfg为zoo.cfg,通过修改zoo.cf
阅读全文
摘要:Zookeeper 1.Zookeeper概述 Zookeeper是一个工具,可以实现集群中的分布式协调服务。 所谓的分布式协调服务,就是在集群的节点中进行可靠的消息传递,来协调集群的工作。 Zookeeper之所以能够实现分布式协调服务,靠的就是它能够保证分布式数据一致性。 所谓的分布式数据一致性
阅读全文
摘要:HIVE的UDF 新建java工程,导入hive相关包,导入hive相关的lib。 创建类继承UDF 自己编写一个evaluate方法,返回值和参数任意。 为了能让mapreduce处理,String要用Text处理。 将写好的类打成jar包,上传到linux中 在hive命令行下,向hive注册U
阅读全文
摘要:HIVE语法 0.数据类型 TINYINT - byte SMALLINT - short INT - int BIGINT - long BOOLEAN - boolean FLOAT - float DOUBLE - double STRING - String TIMESTAMP - Time
阅读全文
摘要:HIVE外部表 分区表 外部表 创建hive表,经过检查发现TBLS表中,hive表的类型为MANAGED_TABLE. 在真实开发中,很可能在hdfs中已经有了数据,希望通过hive直接使用这些数据作为表内容。 此时可以直接创建出hdfs文件夹,其中放置数据,再在hive中创建表管来管理,这种方式
阅读全文
摘要:HIVE配置mysql metastore hive中除了保存真正的数据以外还要额外保存用来描述库、表、数据的数据,称为hive的元数据。这些元数据又存放在何处呢? 如果不修改配置hive默认使用内置的derby数据库存储元数据。 derby是apache开发的基于java的文件型数据库。 可以检查
阅读全文
摘要:HIVE入门 $show databases; 执行后发现默认有一个库default $show tables; 发现没有任何表,证明不use其他库时,默认就是default库。 $create database tedu; 发现在hdfs中多出了/user/hive/warehouse/tedu.
阅读全文
摘要:HIVE的安装配置 首先需要hadoop的支持,启动好hadoop 下载:从apache官网下载新版本hive,要注意和hadoop版本的匹配。 支持: 需要对应版本jdk的支持 需要安装并运行hadoop 安装: 将下载好的hive安装包上传到linux中。 解压:tar -zxvf apache
阅读全文
摘要:HIVE是什么 开发调试麻烦 只能用java开发 需要对hadoop的底层及api比较了解才能开发复杂代码 HQL Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成
阅读全文
摘要:java api操作 导入开发包 将hbase安装包中lib下包导入java项目 创建表 Configuration conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum", "CentOS01:2181,CentO
阅读全文
摘要:二、安装配置HABSE HBase-0.92.x HBase-0.94.x HBase-0.96 Hadoop-0.20.205 S X X Hadoop-0.22.x S X X Hadoop-1.0.x S S S Hadoop-1.1.x NT S S Hadoop-0.23.x X S NT
阅读全文
摘要:HBASE概念补充 HBase的工作方式: hbase中的表在行的方向上分隔为多个HRegion,分散在不同的RegionServer中 这样做的目的是在查询时可以将工作量分布到多个RegionServer中以提高速度 region由[startkey,endkey)表示 HRegion是hbase
阅读全文
摘要:一、HBASE概述 Hadoop Database NoSQL 面向列 提供实时更新查询 。。。。 是一个高可靠性 高性能 面向列 可伸缩的分布式存储系统 利用hbase技术可以在廉价的PC上搭建起大规模结构化存储集群。 HBase利用HadoopHDFS作为其文件存储系统,利用Hadoop的Map
阅读全文
摘要:mapreducer计算原理 InputFormat InputFormat的默认实现是TextInputFormat InputSplit 是mapreducer对文件进行处理和运算的输入单位。只是一个逻辑概念。每一个InputSplit并没有对文件进行实际的切割。只是记录了要处理文件的位置信息(
阅读全文
摘要:Job的运行过程 Job的具体运行过程 a) 运行mapred程序 b) 本次运行将生成一个Job,于是JobClient向JobTracker(ResourceManager)申请一个JobId以标识这个Job c) JobClient将Job所需要的资源提交到HDFS中一个以JOBID命名的目录
阅读全文
摘要:JAVAAPI 上传小文件 代码 上面的例子完成了把一个字符串输出到hdfs中的/test目录中。 原理 见上传大文件的例子 上传大文件 代码 原理 客户端调用FileSystem的create方法创建文件,这个时候会远程调用NameNode,在文件系统的命名空间中创建一个新的文件,NameNode
阅读全文
摘要:文件操作 Hadoop-fs 帮助文档 [root@hadoop01 current]# hadoop fs –help -ls [-d] [-h] [-R] [<path> ...] : List the contents that match the specified file pattern
阅读全文
摘要:体系结构 从上图可以看出NameNode节点:在Hadoop1.x的版本中,NameNode节点只有一个,所以NameNode节点为非HA的(不是高可用的,后面会详细讨论)。在Hadoop2.X的版本中,NameNode节点可以有很多个。所以在Hadoop2.x的版本中,NameNode节点是HA的
阅读全文
摘要:hdfs(分布式文件系统) 优点 支持超大文件 支持超大文件。超大文件在这里指的是几百M,几百GB,甚至几TB大小的文件。一般来说hadoop的文件系统会存储TB级别或者PB级别的数据。所以在企业的应用中,数据节点有可能有上千个。 检测和快速应对硬件故障 在集群的环境中,硬件故障是常见的问题。因为有
阅读全文
摘要:hadoop的单机配置 准备工作 利用vim /etc/sysconfig/network命令修改主机名称。 Ssh security shell 远程登录 登录远程服务器 $ ssh user@host 如果本地用户名与远程用户名一致,登录时可以省略用户名。 $ ssh host 提示信息 The
阅读全文
摘要:hadoop的目录结构介绍 解压缩hadoop 利用tar –zxvf把hadoop的jar包放到指定的目录下。 tar -zxvf /home/software/aa.tar.gz -C /home/zjx/pf f:指定文件的名称 z:以gz结尾的文件就是用gzip压缩的结果。与gzip相对的就
阅读全文
摘要:zebra架构的缺点 文件存储方式的缺点 1、 一个文件如果特别大,这样会造成存储的问题。一台机器的磁盘也不可能存储特别大的文件 2、 该文件在查询、删除、修改的时候都会存在问题 3、 如果文件太多,管理起来特别不方便 4、 如果一个文件破坏了,那么将会造成文件的丢失,因为没有重用的文件 计算的缺点
阅读全文
摘要:云计算 云计算的概念 能通过网络访问可扩展的、灵活的、可共享的物理或虚拟资源池,并按需自助获取和管理这些资源的模式。其中资源实例包括服务器、操作系统、网络、软件、应用和存储设备等。如图-1所示。 Iaas Iaas: Infrastructure as a Service,基础设施即服务。这里的基础
阅读全文
摘要:!!!1.Memory Channel 内存通道 事件将被存储在内存中的具有指定大小的队列中。 非常适合那些需要高吞吐量但是失败是会丢失数据的场景下。 属性说明: !type – 类型,必须是“memory” capacity 100 事件存储在信道中的最大数量 transactionCapacit
阅读全文
摘要:1.概述 Flume有能力在运行阶段修改/删除Event,这是通过拦截器(Interceptors)来实现的。 拦截器需要实现org.apache.flume.interceptor.Interceptor接口。 拦截器可以修改或删除事件基于开发者在选择器中选择的任何条件。 拦截器采用了责任链模式,
阅读全文
摘要:1.概述 Sink Group允许用户将多个Sink组合成一个实体。 Flume Sink Processor 可以通过切换组内Sink用来实现负载均衡的效果,或在一个Sink故障时切换到另一个Sink。 sinks – 用空格分隔的Sink集合 processor.type default 类型名
阅读全文
摘要:选择器可以工作在复制 多路复用(路由) 模式下 属性说明: selector.type replicating 类型名称,必须是 replicating selector.optional – 标志通道为可选 案例: 参看avro sink案例 属性说明: selector.type 类型,必须是"
阅读全文
摘要:记录INFO级别的日志,通常用于调试。 属性说明: !channel – !type – The component type name, needs to be logger maxBytesToLog 16 Maximum number of bytes of the Event body to
阅读全文
摘要:监听AVRO端口来接受来自外部AVRO客户端的事件流。 利用Avro Source可以实现多级流动、扇出流、扇入流等效果。 另外也可以接受通过flume提供的Avro客户端发送的日志信息。 支持的属性: !channels – !type – 类型名称,"AVRO" !bind – 需要监听的主机名
阅读全文
摘要:首先需要通过一个配置文件来配置Agent。 通过flume提供的工具启动agent就可以工作了。 (1)编写配置文件 #example.conf:单节点Flume配置 #命名Agent a1的组件 a1.sources = r1 a1.sinks = k1 a1.channels = c1 #描述/
阅读全文
摘要:Flume Event - Flume 事件 - 被定义为一个具有有效荷载的字节数据流和可选的字符串属性集。 Flume Agent- Flume - 代理 - 是一个进程承载从外部源事件流到下一个目的地的过程。 Source - 数据源 - 消耗外部传递给他的事件,外部源将数据按照Flume So
阅读全文
摘要:下载 可以apache官网下载flume的安装包 下载时注意,flume具有两个版本,0.9.x和1.x,两个版本并不兼容,我们用最新的1.x版本,也叫flume-ng版本。 安装 解压到指定目录即可 下载 可以apache官网下载flume的安装包 下载时注意,flume具有两个版本,0.9.x和
阅读全文
摘要:flume是分布式的,可靠的,用于从不同的来源有效收集 聚集 和 移动 大量的日志数据用以集中式的数据存储的系统。 是apache的一个顶级项目。 系统需求:jdk1.6以上,推荐java1.7
阅读全文

浙公网安备 33010602011771号