咖啡猫

导航

随笔分类 -  Hadoop

hadoop 8步走
摘要:1.1读取hdfs中的文件。每一行解析成一个。每一个键值对调用一次map函数 解析成2个,分别是。调用2次map函数。 1、读文件解析 1.2 覆盖map(),接收1.1产生的,进行处理,转换为新的... 阅读全文

posted @ 2015-03-05 21:21 咖啡猫1292 阅读(152) 评论(0) 推荐(0)

ssh原理
摘要: 客户端向服务器端发出连接请求 服务器端向客户端发出自己的公钥 客户端使用服务器端的公钥加密通讯密钥然后发给服务器端 如果通讯过程被截获,由于窃听者即使获知公钥和经过公钥加密的内容,但不拥有私钥依然无法解密(RSA算法) 服务器端接收到密文后,用私钥解密,获知通讯密钥 ssh-keyg... 阅读全文

posted @ 2015-01-09 20:27 咖啡猫1292 阅读(158) 评论(0) 推荐(0)

MapReduce基础
摘要:这篇文章翻译自Yahoo的Hadoop教程,很久之前就看过了,感觉还不错。最近想总结一下以前学的东西,看到现在关于Hadoop的中文资料还比较少,就有了把它翻译出来的想法,希望能帮助到初学者。这只是Yahoo的Hadoop教程中很小的一部分,我下去还会选一些来翻译,一般来说只翻译讲原理的,操作类的就... 阅读全文

posted @ 2015-01-09 16:22 咖啡猫1292 阅读(174) 评论(0) 推荐(0)

centos ssh 无密码登录
摘要:在linux系统中,ssh是远程登录的默认工具,因为该工具的协议使用了RSA/DSA的加密算法.该工具做linux系统的远程管理是非常安全的。telnet,因为其不安全性,在linux系统中被搁置使用了。 " 公私钥"认证方式简单的解释:首先在客户端上创建一对公私钥 (公钥文件:~/.ssh/id... 阅读全文

posted @ 2014-11-29 16:40 咖啡猫1292 阅读(394) 评论(0) 推荐(0)

ZooKeeper启动过程
摘要:ZooKeeper启动过程1.如何启动zkServer.sh【Linux】或 zkServer.cmd【Windows】以zkServer.cmd为例(zkServer.sh中内容太多):可以清晰的看出:调用了QuorumPeerMain这个类,传的参数为%ZOOCFG%【在zkEnv.cmd中定义... 阅读全文

posted @ 2014-11-25 12:17 咖啡猫1292 阅读(387) 评论(0) 推荐(0)

ZooKeeper启动过程2:FastLeaderElection
摘要:前一篇文章中说到,启动ZooKeeper集群时,需要分别启动集群中的各个节点,各节点以QuorumPeer的形式启动,最后到达startLeaderElection和lookForLeader。先说startLeaderElection首先,初始化节点自身的currentVote【当前投票】为【my... 阅读全文

posted @ 2014-11-25 12:16 咖啡猫1292 阅读(259) 评论(0) 推荐(0)

zookeeper启动失败无法查看status-----用户权限
摘要:最近一直在调试zookeeper,总是出现莫名其妙的问题QuorumPeerMain 进程存在,但是无法查看status,JMX enabled by defaultUsing config: /data/programfiles/zookeeper-3.4.5/bin/../conf/zoo.cf... 阅读全文

posted @ 2014-11-25 11:26 咖啡猫1292 阅读(836) 评论(0) 推荐(0)

图解Nosql(hbase)与传统数据库的区别
摘要:图解Nosql(hbase)与传统数据库的区别http://www.aboutyun.com/thread-7804-1-1.html(出处: about云开发)问题导读:1.nosql数据库能否删除列2.nosql数据库如何删除一条记录3.nosql数据库列族和lieder区别是什么?4.nosq... 阅读全文

posted @ 2014-11-23 21:22 咖啡猫1292 阅读(1384) 评论(0) 推荐(0)

在Hadoop集群中添加机器和删除机器
摘要:本文转自:http://www.cnblogs.com/gpcuster/archive/2011/04/12/2013411.html无论是在Hadoop集群中添加机器和删除机器,都无需停机,整个服务不中断。本次操作之前,Hadoop的集群情况如下:HDFS的机器情况如下:MR的机器情况如下:添加... 阅读全文

posted @ 2014-11-14 14:56 咖啡猫1292 阅读(250) 评论(0) 推荐(0)

MapReduce数据流(一)
摘要:在上一篇文章中我们讲解了一个基本的MapReduce作业由那些基本组件组成,从高层来看,所有的组件在一起工作时如下图所示:图4.4高层MapReduce工作流水线 MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点... 阅读全文

posted @ 2014-11-07 23:03 咖啡猫1292 阅读(268) 评论(0) 推荐(0)

MapReduce数据流(二)
摘要:输入块(InputSplit):一个输入块描述了构成MapReduce程序中单个map任务的一个单元。把一个MapReduce程序应用到一个数据集上,即是指一个作业,会由几个(也可能几百个)任务组成。Map任务可能会读取整个文件,但一般是读取文件的一部分。默认情况下,FileInputFormat... 阅读全文

posted @ 2014-11-07 23:02 咖啡猫1292 阅读(131) 评论(0) 推荐(0)

MapReduce 重要组件——Recordreader组件
摘要:(1)以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类;(2)系统默认的RecordReader是LineRecordReader,如TextInputFormat;而SequenceFileInputFormat的RecordReader是SequenceFile... 阅读全文

posted @ 2014-11-07 23:01 咖啡猫1292 阅读(474) 评论(0) 推荐(0)

关于Mapper、Reducer的个人总结(转)
摘要:Mapper的处理过程:1.1. InputFormat 产生 InputSplit,并且调用RecordReader将这些逻辑单元(InputSplit)转化为map task的输入。其中InputSplit是map task处理的最小输入单元的逻辑表示。1.2. 在客户端代码中调用Job类来设置... 阅读全文

posted @ 2014-11-07 19:55 咖啡猫1292 阅读(430) 评论(0) 推荐(0)

Hadoop中常用的InputFormat、OutputFormat(转)
摘要:Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据,每一个Map Reduce程序都离不开它们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的:TextInputFormat作为默认的... 阅读全文

posted @ 2014-11-01 10:11 咖啡猫1292 阅读(264) 评论(0) 推荐(0)

namenode 无法启动之每次开机需要重新格式化-tmp
摘要:最近遇到了一个问题,执行start-all.sh的时候发现JPS一下namenode没有启动 每次开机都得重新格式化一下namenode才可以 其实问题就出在tmp文件,默认的tmp文件每次重新开机会被清空,与此同时namenode的格式化信息就会丢失 于是我们得重新配置一个tmp... 阅读全文

posted @ 2014-10-30 11:39 咖啡猫1292 阅读(486) 评论(0) 推荐(0)

namenode 和datanode无法启动,错误:FSNamesystem initialization failed. datanode.DataNode: Incompatible namespaceIDs
摘要:问题一:namenode无法启动,查看日志,错误信息如下:org.apache.hadoop.hdfs.server.namenode.FSNamesystem: FSNamesystem initialization failed.java.io.IOException: NameNode is ... 阅读全文

posted @ 2014-10-28 14:44 咖啡猫1292 阅读(1068) 评论(0) 推荐(0)

Hadoop 重启各个节点
摘要:对于datanode可以在master中配置,然后在maste启动的时候,一并去启动这些节点 。对于死掉的节点,也可以通过以下命令启动 。重启挂掉的节点进入到 挂掉的机器bin/hadoop-daemon.sh start datanode //启动数据节点bin/hadoop-daemon.sh ... 阅读全文

posted @ 2014-10-26 16:20 咖啡猫1292 阅读(376) 评论(0) 推荐(0)

hadoop 常见问题
摘要:1、Eclipse 读取hdfs文件错误: java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724... 阅读全文

posted @ 2014-10-26 16:09 咖啡猫1292 阅读(130) 评论(0) 推荐(0)

深入剖析HADOOP程序日志
摘要:深入剖析HADOOP程序日志前提本文来自于 博客园逖靖寒的世界http://gpcuster.cnblogs.com了解log4j的使用。正文本文来自于 博客园逖靖寒的世界http://gpcuster.cnblogs.com*.log日志文件和*.out日志文件进入我们的Hadoop_LOG目录,... 阅读全文

posted @ 2014-10-20 16:52 咖啡猫1292 阅读(248) 评论(0) 推荐(0)

Map-Reduce的工作机制
摘要:Mapper“Map-Reduce”的思想就是“分而治之”Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”而执行“简单的任务”有几个意思:1、数据或计算规模相对于原任务要大大缩小;2、就近计算,即会被分配到存放了所需数据的节点进行计算。3、这些小任务可以并行计算,彼此间没有相互依赖的... 阅读全文

posted @ 2014-10-18 18:06 咖啡猫1292 阅读(319) 评论(0) 推荐(0)