随笔档案「2016年8月」 - 周蓬勃

zookeeper原理

摘要：zookeeper原理 zookeeper为了保证可靠性，不能用一台机器，而应该是一个集群为了保证zookeeper集群数据能够一致，必须有一个拍板说了算的人，这就是leader，其他的是follower。某一时刻集群里只能有且仅有一个leader。 leader可以执行增删改和查询操作，而fo 阅读全文

posted @ 2016-08-21 00:08 周蓬勃阅读(606) 评论(0) 推荐(0)

zookeeper的shell下操作

摘要：zookeeper的shell下操作进入%ZK_HOME%/bin 执行zkCli.sh [-server ip:port] #如不指定，则连接本机创建： create [-s] [-e] path data acl #创建数据节点 --其中 -s表示顺序节点 -e表示临时节点，两个都不加则是持阅读全文

posted @ 2016-08-21 00:06 周蓬勃阅读(344) 评论(0) 推荐(0)

zookeeper集群的搭建

摘要：zookeeper集群的搭建需要先安装jdk，并且配置jdk的环境变量下载zookeeper的安装包上传到linux集群环境下解压安装包 tar -zxvf zookeeper-3.4.7.tar.gz 进入conf目录，复制zoo-sample.cfg为zoo.cfg,通过修改zoo.cf 阅读全文

posted @ 2016-08-21 00:05 周蓬勃阅读(228) 评论(0) 推荐(0)

Zookeeper概述、特点、数据模型

摘要：Zookeeper 1.Zookeeper概述 Zookeeper是一个工具，可以实现集群中的分布式协调服务。所谓的分布式协调服务，就是在集群的节点中进行可靠的消息传递，来协调集群的工作。 Zookeeper之所以能够实现分布式协调服务，靠的就是它能够保证分布式数据一致性。所谓的分布式数据一致性阅读全文

posted @ 2016-08-21 00:04 周蓬勃阅读(5909) 评论(0) 推荐(1)

HIVE的UDF

摘要：HIVE的UDF 新建java工程，导入hive相关包，导入hive相关的lib。创建类继承UDF 自己编写一个evaluate方法，返回值和参数任意。为了能让mapreduce处理，String要用Text处理。将写好的类打成jar包，上传到linux中在hive命令行下，向hive注册U 阅读全文

posted @ 2016-08-21 00:03 周蓬勃阅读(192) 评论(0) 推荐(0)

HIVE语法

摘要：HIVE语法 0.数据类型 TINYINT - byte SMALLINT - short INT - int BIGINT - long BOOLEAN - boolean FLOAT - float DOUBLE - double STRING - String TIMESTAMP - Time 阅读全文

posted @ 2016-08-21 00:01 周蓬勃阅读(328) 评论(0) 推荐(0)

HIVE外部表分区表

摘要：HIVE外部表分区表外部表创建hive表，经过检查发现TBLS表中，hive表的类型为MANAGED_TABLE. 在真实开发中，很可能在hdfs中已经有了数据，希望通过hive直接使用这些数据作为表内容。此时可以直接创建出hdfs文件夹，其中放置数据，再在hive中创建表管来管理，这种方式阅读全文

posted @ 2016-08-21 00:00 周蓬勃阅读(3044) 评论(1) 推荐(0)

HIVE配置mysql metastore

摘要：HIVE配置mysql metastore hive中除了保存真正的数据以外还要额外保存用来描述库、表、数据的数据，称为hive的元数据。这些元数据又存放在何处呢？如果不修改配置hive默认使用内置的derby数据库存储元数据。 derby是apache开发的基于java的文件型数据库。可以检查阅读全文

posted @ 2016-08-20 23:59 周蓬勃阅读(4182) 评论(0) 推荐(0)

HIVE入门

摘要：HIVE入门 $show databases; 执行后发现默认有一个库default $show tables; 发现没有任何表，证明不use其他库时，默认就是default库。 $create database tedu; 发现在hdfs中多出了/user/hive/warehouse/tedu. 阅读全文

posted @ 2016-08-20 23:58 周蓬勃阅读(360) 评论(0) 推荐(0)

HIVE的安装配置

摘要：HIVE的安装配置首先需要hadoop的支持，启动好hadoop 下载：从apache官网下载新版本hive，要注意和hadoop版本的匹配。支持：需要对应版本jdk的支持需要安装并运行hadoop 安装：将下载好的hive安装包上传到linux中。解压：tar -zxvf apache 阅读全文

posted @ 2016-08-20 23:57 周蓬勃阅读(243) 评论(0) 推荐(0)

Hive概述

摘要：HIVE是什么开发调试麻烦只能用java开发需要对hadoop的底层及api比较了解才能开发复杂代码 HQL Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成阅读全文

posted @ 2016-08-20 23:56 周蓬勃阅读(219) 评论(0) 推荐(0)

java api操作

摘要：java api操作导入开发包将hbase安装包中lib下包导入java项目创建表 Configuration conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum", "CentOS01:2181,CentO 阅读全文

posted @ 2016-08-20 23:54 周蓬勃阅读(430) 评论(0) 推荐(0)

Hbase安装配置

摘要：二、安装配置HABSE HBase-0.92.x HBase-0.94.x HBase-0.96 Hadoop-0.20.205 S X X Hadoop-0.22.x S X X Hadoop-1.0.x S S S Hadoop-1.1.x NT S S Hadoop-0.23.x X S NT 阅读全文

posted @ 2016-08-20 23:53 周蓬勃阅读(290) 评论(0) 推荐(0)

HBASE概念补充

摘要：HBASE概念补充 HBase的工作方式： hbase中的表在行的方向上分隔为多个HRegion，分散在不同的RegionServer中这样做的目的是在查询时可以将工作量分布到多个RegionServer中以提高速度 region由[startkey,endkey)表示 HRegion是hbase 阅读全文

posted @ 2016-08-20 23:53 周蓬勃阅读(407) 评论(0) 推荐(0)

Hbase概述

摘要：一、HBASE概述 Hadoop Database NoSQL 面向列提供实时更新查询。。。。是一个高可靠性高性能面向列可伸缩的分布式存储系统利用hbase技术可以在廉价的PC上搭建起大规模结构化存储集群。 HBase利用HadoopHDFS作为其文件存储系统，利用Hadoop的Map 阅读全文

posted @ 2016-08-20 23:52 周蓬勃阅读(264) 评论(0) 推荐(0)

mapreducer计算原理

摘要：mapreducer计算原理 InputFormat InputFormat的默认实现是TextInputFormat InputSplit 是mapreducer对文件进行处理和运算的输入单位。只是一个逻辑概念。每一个InputSplit并没有对文件进行实际的切割。只是记录了要处理文件的位置信息（阅读全文

posted @ 2016-08-19 17:33 周蓬勃阅读(608) 评论(0) 推荐(0)

Job的运行过程

摘要：Job的运行过程 Job的具体运行过程 a) 运行mapred程序 b) 本次运行将生成一个Job,于是JobClient向JobTracker(ResourceManager)申请一个JobId以标识这个Job c) JobClient将Job所需要的资源提交到HDFS中一个以JOBID命名的目录阅读全文

posted @ 2016-08-19 17:33 周蓬勃阅读(194) 评论(0) 推荐(0)

HDFS之JAVAAPI

摘要：JAVAAPI 上传小文件代码上面的例子完成了把一个字符串输出到hdfs中的/test目录中。原理见上传大文件的例子上传大文件代码原理客户端调用FileSystem的create方法创建文件，这个时候会远程调用NameNode，在文件系统的命名空间中创建一个新的文件，NameNode 阅读全文

posted @ 2016-08-19 17:29 周蓬勃阅读(236) 评论(0) 推荐(0)

HDFS文件操作

摘要：文件操作 Hadoop-fs 帮助文档 [root@hadoop01 current]# hadoop fs –help -ls [-d] [-h] [-R] [<path> ...] : List the contents that match the specified file pattern 阅读全文

posted @ 2016-08-19 17:27 周蓬勃阅读(595) 评论(0) 推荐(0)

HdfS体系结构

摘要：体系结构从上图可以看出NameNode节点:在Hadoop1.x的版本中，NameNode节点只有一个，所以NameNode节点为非HA的(不是高可用的,后面会详细讨论)。在Hadoop2.X的版本中，NameNode节点可以有很多个。所以在Hadoop2.x的版本中，NameNode节点是HA的阅读全文

posted @ 2016-08-19 17:26 周蓬勃阅读(716) 评论(0) 推荐(0)

hdfs(分布式文件系统)优缺点

摘要：hdfs(分布式文件系统) 优点支持超大文件支持超大文件。超大文件在这里指的是几百M，几百GB，甚至几TB大小的文件。一般来说hadoop的文件系统会存储TB级别或者PB级别的数据。所以在企业的应用中，数据节点有可能有上千个。检测和快速应对硬件故障在集群的环境中，硬件故障是常见的问题。因为有阅读全文

posted @ 2016-08-19 17:25 周蓬勃阅读(8054) 评论(0) 推荐(0)

hadoop的单机配置

摘要：hadoop的单机配置准备工作利用vim /etc/sysconfig/network命令修改主机名称。 Ssh security shell 远程登录登录远程服务器 $ ssh user@host 如果本地用户名与远程用户名一致，登录时可以省略用户名。 $ ssh host 提示信息 The 阅读全文

posted @ 2016-08-19 17:24 周蓬勃阅读(2016) 评论(0) 推荐(1)

hadoop的目录结构介绍

摘要：hadoop的目录结构介绍解压缩hadoop 利用tar –zxvf把hadoop的jar包放到指定的目录下。 tar -zxvf /home/software/aa.tar.gz -C /home/zjx/pf f:指定文件的名称 z:以gz结尾的文件就是用gzip压缩的结果。与gzip相对的就阅读全文

posted @ 2016-08-19 17:13 周蓬勃阅读(5350) 评论(0) 推荐(0)

Zebra架构与大数据架构优劣对比

摘要：zebra架构的缺点文件存储方式的缺点 1、一个文件如果特别大，这样会造成存储的问题。一台机器的磁盘也不可能存储特别大的文件 2、该文件在查询、删除、修改的时候都会存在问题 3、如果文件太多，管理起来特别不方便 4、如果一个文件破坏了，那么将会造成文件的丢失，因为没有重用的文件计算的缺点阅读全文

posted @ 2016-08-19 17:07 周蓬勃阅读(633) 评论(0) 推荐(0)

云计算简介

摘要：云计算云计算的概念能通过网络访问可扩展的、灵活的、可共享的物理或虚拟资源池，并按需自助获取和管理这些资源的模式。其中资源实例包括服务器、操作系统、网络、软件、应用和存储设备等。如图-1所示。 Iaas Iaas: Infrastructure as a Service，基础设施即服务。这里的基础阅读全文

posted @ 2016-08-19 17:06 周蓬勃阅读(276) 评论(0) 推荐(0)

channel 介绍

摘要：!!!1.Memory Channel 内存通道事件将被存储在内存中的具有指定大小的队列中。非常适合那些需要高吞吐量但是失败是会丢失数据的场景下。属性说明： !type – 类型，必须是“memory” capacity 100 事件存储在信道中的最大数量 transactionCapacit 阅读全文

posted @ 2016-08-12 23:26 周蓬勃阅读(1156) 评论(0) 推荐(0)

Interceptors - 拦截器

摘要：1.概述 Flume有能力在运行阶段修改/删除Event，这是通过拦截器（Interceptors）来实现的。拦截器需要实现org.apache.flume.interceptor.Interceptor接口。拦截器可以修改或删除事件基于开发者在选择器中选择的任何条件。拦截器采用了责任链模式，阅读全文

posted @ 2016-08-12 23:23 周蓬勃阅读(2469) 评论(0) 推荐(0)

Processor 介绍

摘要：1.概述 Sink Group允许用户将多个Sink组合成一个实体。 Flume Sink Processor 可以通过切换组内Sink用来实现负载均衡的效果，或在一个Sink故障时切换到另一个Sink。 sinks – 用空格分隔的Sink集合 processor.type default 类型名阅读全文

posted @ 2016-08-12 23:22 周蓬勃阅读(1608) 评论(0) 推荐(0)

Selector 选择器

摘要：选择器可以工作在复制多路复用(路由) 模式下属性说明： selector.type replicating 类型名称，必须是 replicating selector.optional – 标志通道为可选案例：参看avro sink案例属性说明： selector.type 类型，必须是" 阅读全文

posted @ 2016-08-12 23:19 周蓬勃阅读(534) 评论(0) 推荐(0)

Sink - 汇聚点

摘要：记录INFO级别的日志，通常用于调试。属性说明： !channel – !type – The component type name, needs to be logger maxBytesToLog 16 Maximum number of bytes of the Event body to 阅读全文

posted @ 2016-08-12 23:17 周蓬勃阅读(1125) 评论(0) 推荐(0)

Source 介绍

摘要：监听AVRO端口来接受来自外部AVRO客户端的事件流。利用Avro Source可以实现多级流动、扇出流、扇入流等效果。另外也可以接受通过flume提供的Avro客户端发送的日志信息。支持的属性: !channels – !type – 类型名称，"AVRO" !bind – 需要监听的主机名阅读全文

posted @ 2016-08-12 23:16 周蓬勃阅读(1880) 评论(0) 推荐(0)

Flume入门案例

摘要：首先需要通过一个配置文件来配置Agent。通过flume提供的工具启动agent就可以工作了。 (1)编写配置文件＃example.conf：单节点Flume配置＃命名Agent a1的组件 a1.sources = r1 a1.sinks = k1 a1.channels = c1 ＃描述/ 阅读全文

posted @ 2016-08-12 23:15 周蓬勃阅读(222) 评论(0) 推荐(0)

Flume 概念、模型和特点

摘要：Flume Event - Flume 事件 - 被定义为一个具有有效荷载的字节数据流和可选的字符串属性集。 Flume Agent- Flume - 代理 - 是一个进程承载从外部源事件流到下一个目的地的过程。 Source - 数据源 - 消耗外部传递给他的事件，外部源将数据按照Flume So 阅读全文

posted @ 2016-08-12 23:14 周蓬勃阅读(568) 评论(0) 推荐(0)

Flume下载安装

摘要：下载可以apache官网下载flume的安装包下载时注意，flume具有两个版本，0.9.x和1.x,两个版本并不兼容，我们用最新的1.x版本，也叫flume-ng版本。安装解压到指定目录即可下载可以apache官网下载flume的安装包下载时注意，flume具有两个版本，0.9.x和阅读全文

posted @ 2016-08-12 23:11 周蓬勃阅读(496) 评论(0) 推荐(0)

Flume概述

摘要：flume是分布式的，可靠的，用于从不同的来源有效收集聚集和移动大量的日志数据用以集中式的数据存储的系统。是apache的一个顶级项目。系统需求：jdk1.6以上，推荐java1.7 阅读全文

posted @ 2016-08-12 22:38 周蓬勃阅读(217) 评论(0) 推荐(0)

禅克

欢迎关注我的微信公众号《HBase工作笔记》

08 2016 档案