2016 年 3月 19 日随笔档案 - 1130136248

Hbase写数据，存数据，读数据的详细过程

摘要： 1.Client写入需要哪些过程？ 2.Hbase是如何读取数据的？ Client写入 -> 存入MemStore，一直到MemStore满 -> Flush成一个StoreFile，直至增长到一定阈值 -> 出发Compact合并操作 -> 多个StoreFile合并成一个StoreFile，同时阅读全文

posted @ 2016-03-19 21:21 1130136248 阅读(11320) 评论(0) 推荐(1)

DDL和DML的定义和区别

摘要： DML(Data Manipulation Language)数据操纵语言：适用范围：对数据库中的数据进行一些简单操作，如insert,delete,update,select等. DDL(Data Definition Language)数据定义语言：适用范围：对数据库中的某些对象(例如，da 阅读全文

posted @ 2016-03-19 20:08 1130136248 阅读(2146) 评论(0) 推荐(0)

Hbase shell 常用命令（1）

摘要：下面我们看看HBase Shell的一些基本操作命令，我列出了几个常用的HBase Shell命令，如下：名称命令表达式创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名称', '行名称', '列名称:', '值' 查看记录 get '表名称阅读全文

posted @ 2016-03-19 20:07 1130136248 阅读(142) 评论(0) 推荐(0)

HBase .META. Region启动不成功(我用的这个方法)

摘要： 1/ 集群各个节点时间不一致( ) 2/勇敢的删除的log（/hbase/.log）启动region server的时候报如下错误: 2013-09-09 11:23:05,863 DEBUG org.apache.hadoop.hbase.regionserver.HRegionServer: 阅读全文

posted @ 2016-03-19 19:43 1130136248 阅读(1392) 评论(0) 推荐(0)

HBase 增量备份

摘要： Author：Pirate Leo myBlog: http://blog.csdn.net/pirateleo/ myEmail: codeevoship@gmail.com 转载请注明出处，谢谢。文中可能涉及到的API： Hadoop/HDFS:http://hadoop.apache.org 阅读全文

posted @ 2016-03-19 19:30 1130136248 阅读(307) 评论(0) 推荐(0)

ZooKeeper日志与快照文件简单分析

摘要：有用过Zookeeper的都知道zoo.cfg配置文件中有dataDir配置项用于存储数据，不过可能有些人不太清楚这个目录具体存储的是那些数据，默认情况下这个目录是用于存储Log（事务日志）与Snapshot（快照）数据，但是Zookeeper还提供了一个用于Log存储目录的配置项dataLog 阅读全文

posted @ 2016-03-19 19:24 1130136248 阅读(2258) 评论(0) 推荐(0)

ZooKeeper （一）概览

摘要：注：出于记录对 zookeeper 的学习研究成果目的，并分享经验，根据官方文档翻译整理而成本文，原文地址： http://zookeeper.apache.org/doc/trunk/zookeeperOver.html ZooKeeper：一个用于分布式应用的分布式协调服务 Zookeeper 阅读全文

posted @ 2016-03-19 19:15 1130136248 阅读(126) 评论(0) 推荐(0)

【ZooKeeper Notes 4】可视化zookeeper的事务日志

摘要：前面提到，在zookeeper server的配置文件zoo.cfg中可以通过dataLogDir来配置zookeeper的事务日志的输出目录,这个事务日志类似于下面这样的文件: 这个文件是一个二进制文件, 一般不能够直接识别, 那么是否有方法可以把这些事务日志转换成正常日志文件呢, 答案是肯定的~ 阅读全文

posted @ 2016-03-19 17:24 1130136248 阅读(440) 评论(0) 推荐(0)

ZooKeeper FAQ

摘要： 1. 客户端对ServerList的轮询机制是什么 2.客户端如何正确处理CONNECTIONLOSS(连接断开) 和 SESSIONEXPIRED(Session 过期)两类连接异常 3. 不同的客户端对同一个节点是否能获取相同的数据 4. 一个客户端修改了某个节点的数据，其它客户端能够马上获取到阅读全文

posted @ 2016-03-19 17:19 1130136248 阅读(180) 评论(0) 推荐(0)

ZooKeeper系列之七：ZooKeeper命令行工具

摘要：当启动 ZooKeeper 服务成功之后，输入下述命令，连接到 ZooKeeper 服务： zkCli.sh –server 10.77.20.23:2181 连接成功后，系统会输出 ZooKeeper 的相关环境以及配置信息，并在屏幕输出“ Welcome to ZooKeeper ”等信息。输阅读全文

posted @ 2016-03-19 17:01 1130136248 阅读(122) 评论(0) 推荐(0)

ZooKeeper系列之一：ZooKeeper简介

摘要： ZooKeeper 是一个为分布式应用所设计的分布的、开源的协调服务。分布式的应用可以建立在同步、配置管理、分组和命名等服务的更高级别的实现的基础之上。 ZooKeeper 意欲设计一个易于编程的环境，它的文件系统使用我们所熟悉的目录树结构。 ZooKeeper 使用 Java 所编写，但是支持 J 阅读全文

posted @ 2016-03-19 16:54 1130136248 阅读(142) 评论(0) 推荐(0)

部署与管理ZooKeeper(转)1

摘要：本文以ZooKeeper3.4.3版本的官方指南为基础：http://zookeeper.apache.org/doc/r3.4.3/zookeeperAdmin.html，补充一些作者运维实践中的要点，围绕ZK的部署和运维两个方面讲一些管理员需要知道的东西。本文并非一个ZK搭建的快速入门，关于这方阅读全文

posted @ 2016-03-19 16:53 1130136248 阅读(167) 评论(0) 推荐(0)

ZooKeeper系列之六：ZooKeeper四字命令

摘要： ZooKeeper 支持某些特定的四字命令字母与其的交互。它们大多是查询命令，用来获取 ZooKeeper 服务的当前状态及相关信息。用户在客户端可以通过 telnet 或 nc 向 ZooKeeper 提交相应的命令。 ZooKeeper 常用四字命令见下表 1 所示：表 1 ： ZooKeep 阅读全文

posted @ 2016-03-19 16:43 1130136248 阅读(172) 评论(0) 推荐(0)

分布式服务框架 Zookeeper -- 管理分布式环境中的数据

摘要： Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍 Zookeeper 的安装和配置文件中各个配置项的意义，以及分析阅读全文

posted @ 2016-03-19 14:51 1130136248 阅读(117) 评论(0) 推荐(0)

[转]Zookeeper的原理介绍

摘要：第一章 Zookeeper server l 顺序性，client的updates请求都会根据它发出的顺序被顺序的处理； l 原子性, 一个update操作要么成功要么失败，没有其他可能的结果； l 一致的镜像，client不论连接到哪个server，展示给它都是同一个视图； l 可靠性，一旦一个u 阅读全文

posted @ 2016-03-19 14:44 1130136248 阅读(140) 评论(0) 推荐(0)

zookeeper原理（转）

摘要： ZooKeeper 是一个分布式的，开放源码的分布式应用程序协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。 Zookeeper是hadoop的一个子项目，其发展历程无需赘述。在分布式应用中，由于工程师不能很好地使用锁机制，以及基于消息的协调机制不适合在阅读全文

posted @ 2016-03-19 14:43 1130136248 阅读(206) 评论(0) 推荐(0)

分布式网站架构后续：zookeeper技术浅析

摘要： Zookeeper是hadoop的一个子项目，虽然源自hadoop，但是我发现zookeeper脱离hadoop的范畴开发分布式框架的运用越来越多。今天我想谈谈zookeeper，本文不谈如何使用zookeeper，而是zookeeper到底有哪些实际的运用，哪些类型的应用能发挥 zookeepe 阅读全文

posted @ 2016-03-19 14:40 1130136248 阅读(117) 评论(0) 推荐(0)

zookeeper作用

摘要： ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。Zookeeper是hadoop的一个子项目，其发展历程无需赘述。在分布式应用中，由于工程师不能很好地使用锁机制，以及基于消息的协调机制不适合在阅读全文

posted @ 2016-03-19 14:18 1130136248 阅读(157) 评论(0) 推荐(0)

部署与管理ZooKeeper(转)

摘要：本文以ZooKeeper3.4.3版本的官方指南为基础：http://zookeeper.apache.org/doc/r3.4.3/zookeeperAdmin.html，补充一些作者运维实践中的要点，围绕ZK的部署和运维两个方面讲一些管理员需要知道的东西。本文并非一个ZK搭建的快速入门，关于这方阅读全文

posted @ 2016-03-19 13:52 1130136248 阅读(136) 评论(0) 推荐(0)

zookeeper崩溃后修复

摘要：可能出现该问题的情况：强制关机，数据量过大，集群意外关闭。使用cloudera搭建hadoop集群，由于使用ubuntu系统，根目录空间分配不足，导致数据录入一部分，集群崩溃，后来对ubuntu系统的根目录进行设置，扩大了根目录的空间，但是zookeeper中一台机器的节点一直无法启动。错误日志阅读全文

posted @ 2016-03-19 13:44 1130136248 阅读(790) 评论(0) 推荐(0)

Hadoop MapReduce Job性能调优——修改Map和Reduce个数

摘要：对一个job的map数和reduce数的设定对一个job的运行是非常重要的，并且非常简单。以下是一些设置这几个值的经验总结：阅读全文

posted @ 2016-03-19 13:40 1130136248 阅读(295) 评论(0) 推荐(0)

hadoop执行stop-all.sh的时候总是出现 “no namenode to stop”

摘要：目前的解决的办法 1、先把服务都停掉 $ bin/stop-all.sh 2、格式化namenode $ bin/hadoop namenode -format 3、重新启动所有服务 $ bin/start-dfs.sh 4、可以进行正常操作了原因还不明白，学习中。。。问题是出在我每次start 阅读全文

posted @ 2016-03-19 13:36 1130136248 阅读(745) 评论(0) 推荐(0)

深度分析如何在Hadoop中控制Map的数量

摘要： guibin.beijing@gmail.com 很多文档中描述，Mapper的数量在默认情况下不可直接控制干预，因为Mapper的数量由输入的大小和个数决定。在默认情况下，最终input 占据了多少block，就应该启动多少个Mapper。如果输入的文件数量巨大，但是每个文件的size都小于HDF 阅读全文

posted @ 2016-03-19 13:30 1130136248 阅读(106) 评论(0) 推荐(0)

Hadoop集群参数配置原则

摘要： fs.datanode.handler.count datanode上用于处理RPC的线程数。默认为3，较大集群，可适当调大些，比如8。需要注意的是，每添加一个线程，需要的内存增加。 tasktracker.http.threads HTTP server上的线程数。运行在每个TaskTracker 阅读全文

posted @ 2016-03-19 13:29 1130136248 阅读(538) 评论(0) 推荐(0)

Hadoop中map数的计算1

摘要： Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是： goalSize = totalSize / mapred.map.tasks minSize = max {mapred.min.split.size, minSplitSize} splitSize = 阅读全文

posted @ 2016-03-19 13:27 1130136248 阅读(1056) 评论(0) 推荐(0)

如何在hadoop中控制map的个数

摘要： hadooop 提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。阅读全文

posted @ 2016-03-19 13:26 1130136248 阅读(138) 评论(0) 推荐(0)

hadoop异常“could only be replicated to 0 nodes, instead of 1” 解决

摘要：异常分析 1、“could only be replicated to 0 nodes, instead of 1”异常（1）异常描述上面配置都正确无误，并且，已经完成了如下运行步骤： [root@localhost hadoop-0.20.0]# bin/hadoop namenode -fo 阅读全文

posted @ 2016-03-19 13:25 1130136248 阅读(128) 评论(0) 推荐(0)

Hadoop如何计算map数和reduce数

摘要： Hadoop在运行一个mapreduce job之前，需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数，当一个job提交时，jobclient首先分析job被拆分的split数量，然后吧job.split文件放置在HDFS中，一个job的MapTa 阅读全文

posted @ 2016-03-19 13:23 1130136248 阅读(130) 评论(0) 推荐(0)

hadoop 2.2.0 关于map和reduce的个数的设置（最简单）

摘要：关于hadoop中的map过程，我的理解是每一个map系统会开启一个JVM进程来处理，map之间相互并行，map函数内串行。这样的想法是否正确？由于想在hadoop集群上算一个初始输入数据不多，但是计算很复杂的程序，希望通过mapreduce来达到并行计算的目的。可以通过job.setNumRed 阅读全文

posted @ 2016-03-19 12:00 1130136248 阅读(297) 评论(0) 推荐(0)

hadoop 2.2.0 关于map和reduce的个数的设置

摘要：关于hadoop中的map过程，我的理解是每一个map系统会开启一个JVM进程来处理，map之间相互并行，map函数内串行。这样的想法是否正确？由于想在hadoop集群上算一个初始输入数据不多，但是计算很复杂的程序，希望通过mapreduce来达到并行计算的目的。可以通过job.setNumRed 阅读全文

posted @ 2016-03-19 11:55 1130136248 阅读(688) 评论(0) 推荐(0)

map和reduce 个数的设定（Hive优化）经典

摘要：一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定阅读全文

posted @ 2016-03-19 11:15 1130136248 阅读(102) 评论(0) 推荐(0)

[转]MapReduce Map数 reduce数设置

摘要： JobConf.setNumMapTasks(n)是有意义的，结合block size会具体影响到map任务的个数，详见FileInputFormat.getSplits源码。假设没有设置mapred.min.split.size，缺省为1的情况下，针对每个文件会按照min (totalsize[所阅读全文

posted @ 2016-03-19 10:59 1130136248 阅读(110) 评论(0) 推荐(0)

Hadoop HDFS中的数据块和Map任务的分片

摘要： HDFS的数据块磁盘数据块是磁盘进行数据读/写的最小单位，一般是512字节, 而HDFS中也有数据块，默认为64MB。所以HDFS上的大文件被分为许多个chunk.而HDFS上的小文件（小于64MB)的文件不会占据整个块的空间。 HDFS数据块设置大的原因是减少寻址开销，数据备份也是以块为单位的。阅读全文

posted @ 2016-03-19 10:51 1130136248 阅读(558) 评论(0) 推荐(0)

Hbase写数据，存数据，读数据的详细过程

DDL和DML的定义和区别

Hbase shell 常用命令（1）

HBase .META. Region启动不成功(我用的这个方法)

HBase 增量备份

ZooKeeper日志与快照文件简单分析

ZooKeeper （一）概览

【ZooKeeper Notes 4】可视化zookeeper的事务日志

ZooKeeper FAQ

ZooKeeper系列之七：ZooKeeper命令行工具

ZooKeeper系列之一：ZooKeeper简介

部署与管理ZooKeeper(转)1

ZooKeeper系列之六：ZooKeeper四字命令

分布式服务框架 Zookeeper -- 管理分布式环境中的数据

[转]Zookeeper的原理介绍

zookeeper原理（转）

分布式网站架构后续：zookeeper技术浅析

zookeeper作用

部署与管理ZooKeeper(转)

zookeeper崩溃后修复

Hadoop MapReduce Job性能调优——修改Map和Reduce个数

hadoop执行stop-all.sh的时候总是出现 “no namenode to stop”

深度分析如何在Hadoop中控制Map的数量

Hadoop集群参数配置原则

Hadoop中map数的计算1

如何在hadoop中控制map的个数

hadoop异常“could only be replicated to 0 nodes, instead of 1” 解决

Hadoop如何计算map数和reduce数

hadoop 2.2.0 关于map和reduce的个数的设置（最简单）

hadoop 2.2.0 关于map和reduce的个数的设置

map和reduce 个数的设定（Hive优化）经典

[转]MapReduce Map数 reduce数设置

Hadoop HDFS中的数据块和Map任务的分片

导航

公告