2016年3月19日

Hbase写数据,存数据,读数据的详细过程

摘要: 1.Client写入需要哪些过程? 2.Hbase是如何读取数据的? Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 出发Compact合并操作 -> 多个StoreFile合并成一个StoreFile,同时 阅读全文

posted @ 2016-03-19 21:21 1130136248 阅读(11320) 评论(0) 推荐(1)

DDL和DML的定义和区别

摘要: DML(Data Manipulation Language)数据操纵语言: 适用范围:对数据库中的数据进行一些简单操作,如insert,delete,update,select等. DDL(Data Definition Language)数据定义语言: 适用范围:对数据库中的某些对象(例如,da 阅读全文

posted @ 2016-03-19 20:08 1130136248 阅读(2146) 评论(0) 推荐(0)

Hbase shell 常用命令(1)

摘要: 下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称 命令表达式 创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名称', '行名称', '列名称:', '值' 查看记录 get '表名称 阅读全文

posted @ 2016-03-19 20:07 1130136248 阅读(142) 评论(0) 推荐(0)

HBase .META. Region启动不成功(我用的这个方法)

摘要: 1/ 集群各个节点时间不一致( ) 2/勇敢的删除的log(/hbase/.log) 启动region server的时候报如下错误: 2013-09-09 11:23:05,863 DEBUG org.apache.hadoop.hbase.regionserver.HRegionServer: 阅读全文

posted @ 2016-03-19 19:43 1130136248 阅读(1392) 评论(0) 推荐(0)

HBase 增量备份

摘要: Author:Pirate Leo myBlog: http://blog.csdn.net/pirateleo/ myEmail: codeevoship@gmail.com 转载请注明出处,谢谢。 文中可能涉及到的API: Hadoop/HDFS:http://hadoop.apache.org 阅读全文

posted @ 2016-03-19 19:30 1130136248 阅读(307) 评论(0) 推荐(0)

ZooKeeper日志与快照文件简单分析

摘要: 有用过Zookeeper的都知道zoo.cfg配置文件中有dataDir配置项用于存储数据,不过可能有些人不太清楚这个目录具体存储的是那 些数据,默认情况下这个目录是用于存储Log(事务日志)与Snapshot(快照)数据,但是Zookeeper还提供了一个用于Log存储目录的配置 项dataLog 阅读全文

posted @ 2016-03-19 19:24 1130136248 阅读(2258) 评论(0) 推荐(0)

ZooKeeper (一)概览

摘要: 注:出于记录对 zookeeper 的学习研究成果目的,并分享经验,根据官方文档翻译整理而成本文,原文地址: http://zookeeper.apache.org/doc/trunk/zookeeperOver.html ZooKeeper:一个用于分布式应用的分布式协调服务 Zookeeper 阅读全文

posted @ 2016-03-19 19:15 1130136248 阅读(126) 评论(0) 推荐(0)

【ZooKeeper Notes 4】可视化zookeeper的事务日志

摘要: 前面提到,在zookeeper server的配置文件zoo.cfg中可以通过dataLogDir来配置zookeeper的事务日志的输出目录,这个事务日志类似于下面这样的文件: 这个文件是一个二进制文件, 一般不能够直接识别, 那么是否有方法可以把这些事务日志转换成正常日志文件呢, 答案是肯定的~ 阅读全文

posted @ 2016-03-19 17:24 1130136248 阅读(440) 评论(0) 推荐(0)

ZooKeeper FAQ

摘要: 1. 客户端对ServerList的轮询机制是什么 2.客户端如何正确处理CONNECTIONLOSS(连接断开) 和 SESSIONEXPIRED(Session 过期)两类连接异常 3. 不同的客户端对同一个节点是否能获取相同的数据 4. 一个客户端修改了某个节点的数据,其它客户端能够马上获取到 阅读全文

posted @ 2016-03-19 17:19 1130136248 阅读(180) 评论(0) 推荐(0)

ZooKeeper系列之七:ZooKeeper命令行工具

摘要: 当启动 ZooKeeper 服务成功之后,输入下述命令,连接到 ZooKeeper 服务: zkCli.sh –server 10.77.20.23:2181 连接成功后,系统会输出 ZooKeeper 的相关环境以及配置信息,并在屏幕输出“ Welcome to ZooKeeper ”等信息。 输 阅读全文

posted @ 2016-03-19 17:01 1130136248 阅读(122) 评论(0) 推荐(0)

ZooKeeper系列之一:ZooKeeper简介

摘要: ZooKeeper 是一个为分布式应用所设计的分布的、开源的协调服务。分布式的应用可以建立在同步、配置管理、分组和命名等服务的更高级别的实现的基础之上。 ZooKeeper 意欲设计一个易于编程的环境,它的文件系统使用我们所熟悉的目录树结构。 ZooKeeper 使用 Java 所编写,但是支持 J 阅读全文

posted @ 2016-03-19 16:54 1130136248 阅读(142) 评论(0) 推荐(0)

部署与管理ZooKeeper(转)1

摘要: 本文以ZooKeeper3.4.3版本的官方指南为基础:http://zookeeper.apache.org/doc/r3.4.3/zookeeperAdmin.html,补充一些作者运维实践中的要点,围绕ZK的部署和运维两个方面讲一些管理员需要知道的东西。本文并非一个ZK搭建的快速入门,关于这方 阅读全文

posted @ 2016-03-19 16:53 1130136248 阅读(167) 评论(0) 推荐(0)

ZooKeeper系列之六:ZooKeeper四字命令

摘要: ZooKeeper 支持某些特定的四字命令字母与其的交互。它们大多是查询命令,用来获取 ZooKeeper 服务的当前状态及相关信息。用户在客户端可以通过 telnet 或 nc 向 ZooKeeper 提交相应的命令。 ZooKeeper 常用四字命令见下表 1 所示: 表 1 : ZooKeep 阅读全文

posted @ 2016-03-19 16:43 1130136248 阅读(172) 评论(0) 推荐(0)

分布式服务框架 Zookeeper -- 管理分布式环境中的数据

摘要: Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将 从使用者角度详细介绍 Zookeeper 的安装和配置文件中各个配置项的意义,以及分析 阅读全文

posted @ 2016-03-19 14:51 1130136248 阅读(117) 评论(0) 推荐(0)

[转]Zookeeper的原理介绍

摘要: 第一章 Zookeeper server l 顺序性,client的updates请求都会根据它发出的顺序被顺序的处理; l 原子性, 一个update操作要么成功要么失败,没有其他可能的结果; l 一致的镜像,client不论连接到哪个server,展示给它都是同一个视图; l 可靠性,一旦一个u 阅读全文

posted @ 2016-03-19 14:44 1130136248 阅读(140) 评论(0) 推荐(0)

zookeeper原理(转)

摘要: ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在 阅读全文

posted @ 2016-03-19 14:43 1130136248 阅读(206) 评论(0) 推荐(0)

分布式网站架构后续:zookeeper技术浅析

摘要: Zookeeper是hadoop的一个子项目,虽然源自hadoop,但是我发现zookeeper脱离hadoop的范畴开发分布式框架的运用 越来越多。今天我想谈谈zookeeper,本文不谈如何使用zookeeper,而是zookeeper到底有哪些实际的运用,哪些类型的应用能发挥 zookeepe 阅读全文

posted @ 2016-03-19 14:40 1130136248 阅读(117) 评论(0) 推荐(0)

zookeeper作用

摘要: ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名 服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制 不适合在 阅读全文

posted @ 2016-03-19 14:18 1130136248 阅读(157) 评论(0) 推荐(0)

部署与管理ZooKeeper(转)

摘要: 本文以ZooKeeper3.4.3版本的官方指南为基础:http://zookeeper.apache.org/doc/r3.4.3/zookeeperAdmin.html,补充一些作者运维实践中的要点,围绕ZK的部署和运维两个方面讲一些管理员需要知道的东西。本文并非一个ZK搭建的快速入门,关于这方 阅读全文

posted @ 2016-03-19 13:52 1130136248 阅读(136) 评论(0) 推荐(0)

zookeeper崩溃后修复

摘要: 可能出现该问题的情况:强制关机,数据量过大,集群意外关闭。 使用cloudera搭建hadoop集群,由于使用ubuntu系统,根目录空间分配不足,导致数据录入一部分,集群崩溃,后来对ubuntu系统的根目录进行设置,扩大了根目录的空间,但是zookeeper中一台机器的节点一直无法启动。 错误日志 阅读全文

posted @ 2016-03-19 13:44 1130136248 阅读(790) 评论(0) 推荐(0)

Hadoop MapReduce Job性能调优——修改Map和Reduce个数

摘要: 对一 个job的map数和reduce数的设定对一个job的运行是非常重要的,并且非常简单。以下是一些设 置这几个值的经验总结: 阅读全文

posted @ 2016-03-19 13:40 1130136248 阅读(295) 评论(0) 推荐(0)

hadoop执行stop-all.sh的时候总是出现 “no namenode to stop”

摘要: 目前的解决的办法 1、先把服务都停掉 $ bin/stop-all.sh 2、格式化namenode $ bin/hadoop namenode -format 3、重新启动所有服务 $ bin/start-dfs.sh 4、可以进行正常操作了 原因还不明白,学习中。。。 问题是出在我每次start 阅读全文

posted @ 2016-03-19 13:36 1130136248 阅读(745) 评论(0) 推荐(0)

深度分析如何在Hadoop中控制Map的数量

摘要: guibin.beijing@gmail.com 很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input 占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDF 阅读全文

posted @ 2016-03-19 13:30 1130136248 阅读(106) 评论(0) 推荐(0)

Hadoop集群参数配置原则

摘要: fs.datanode.handler.count datanode上用于处理RPC的线程数。默认为3,较大集群,可适当调大些,比如8。需要注意的是,每添加一个线程,需要的内存增加。 tasktracker.http.threads HTTP server上的线程数。运行在每个TaskTracker 阅读全文

posted @ 2016-03-19 13:29 1130136248 阅读(538) 评论(0) 推荐(0)

Hadoop中map数的计算1

摘要: Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是: goalSize = totalSize / mapred.map.tasks minSize = max {mapred.min.split.size, minSplitSize} splitSize = 阅读全文

posted @ 2016-03-19 13:27 1130136248 阅读(1056) 评论(0) 推荐(0)

如何在hadoop中控制map的个数

摘要: hadooop 提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是 每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。 阅读全文

posted @ 2016-03-19 13:26 1130136248 阅读(138) 评论(0) 推荐(0)

hadoop异常“could only be replicated to 0 nodes, instead of 1” 解决

摘要: 异常分析 1、“could only be replicated to 0 nodes, instead of 1”异常 (1)异常描述 上面配置都正确无误,并且,已经完成了如下运行步骤: [root@localhost hadoop-0.20.0]# bin/hadoop namenode -fo 阅读全文

posted @ 2016-03-19 13:25 1130136248 阅读(128) 评论(0) 推荐(0)

Hadoop如何计算map数和reduce数

摘要: Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数,当一个job提交 时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTa 阅读全文

posted @ 2016-03-19 13:23 1130136248 阅读(130) 评论(0) 推荐(0)

hadoop 2.2.0 关于map和reduce的个数的设置(最简单)

摘要: 关于hadoop中的map过程,我的理解是每一个map系统会开启一个JVM进程来处理,map之间相互并行,map函数内串行。这样的想法是否正确? 由于想在hadoop集群上算一个初始输入数据不多,但是计算很复杂的程序,希望通过mapreduce来达到并行计算的目的。可以通过job.setNumRed 阅读全文

posted @ 2016-03-19 12:00 1130136248 阅读(297) 评论(0) 推荐(0)

hadoop 2.2.0 关于map和reduce的个数的设置

摘要: 关于hadoop中的map过程,我的理解是每一个map系统会开启一个JVM进程来处理,map之间相互并行,map函数内串行。这样的想法是否正确? 由于想在hadoop集群上算一个初始输入数据不多,但是计算很复杂的程序,希望通过mapreduce来达到并行计算的目的。可以通过job.setNumRed 阅读全文

posted @ 2016-03-19 11:55 1130136248 阅读(688) 评论(0) 推荐(0)

map和reduce 个数的设定 (Hive优化)经典

摘要: 一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定 阅读全文

posted @ 2016-03-19 11:15 1130136248 阅读(102) 评论(0) 推荐(0)

[转]MapReduce Map数 reduce数设置

摘要: JobConf.setNumMapTasks(n)是有意义的,结合block size会具体影响到map任务的个数,详见FileInputFormat.getSplits源码。假设没有设置mapred.min.split.size,缺省为1的情况下,针对每个文件会按照min (totalsize[所 阅读全文

posted @ 2016-03-19 10:59 1130136248 阅读(110) 评论(0) 推荐(0)

Hadoop HDFS中的数据块和Map任务的分片

摘要: HDFS的数据块 磁盘数据块是磁盘进行数据读/写的最小单位,一般是512字节, 而HDFS中也有数据块,默认为64MB。所以HDFS上的大文件被分为许多个chunk.而HDFS上的小文件(小于64MB)的文件不会占据整个块的空间。 HDFS数据块设置大的原因是减少寻址开销,数据备份也是以块为单位的。 阅读全文

posted @ 2016-03-19 10:51 1130136248 阅读(558) 评论(0) 推荐(0)

导航