Hadoop - 随笔分类(第2页) - 咖啡猫1292

hadoop 8步走

摘要：1.1读取hdfs中的文件。每一行解析成一个。每一个键值对调用一次map函数解析成2个，分别是。调用2次map函数。 1、读文件解析 1.2 覆盖map()，接收1.1产生的，进行处理，转换为新的... 阅读全文

posted @ 2015-03-05 21:21 咖啡猫1292 阅读(152) 评论(0) 推荐(0)

ssh原理

摘要： 客户端向服务器端发出连接请求 服务器端向客户端发出自己的公钥 客户端使用服务器端的公钥加密通讯密钥然后发给服务器端 如果通讯过程被截获，由于窃听者即使获知公钥和经过公钥加密的内容，但不拥有私钥依然无法解密（RSA算法） 服务器端接收到密文后，用私钥解密，获知通讯密钥 ssh-keyg... 阅读全文

posted @ 2015-01-09 20:27 咖啡猫1292 阅读(158) 评论(0) 推荐(0)

MapReduce基础

摘要：这篇文章翻译自Yahoo的Hadoop教程，很久之前就看过了，感觉还不错。最近想总结一下以前学的东西，看到现在关于Hadoop的中文资料还比较少，就有了把它翻译出来的想法，希望能帮助到初学者。这只是Yahoo的Hadoop教程中很小的一部分，我下去还会选一些来翻译，一般来说只翻译讲原理的，操作类的就... 阅读全文

posted @ 2015-01-09 16:22 咖啡猫1292 阅读(174) 评论(0) 推荐(0)

centos ssh 无密码登录

摘要：在linux系统中,ssh是远程登录的默认工具,因为该工具的协议使用了RSA/DSA的加密算法.该工具做linux系统的远程管理是非常安全的。telnet,因为其不安全性,在linux系统中被搁置使用了。 " 公私钥"认证方式简单的解释:首先在客户端上创建一对公私钥（公钥文件：~/.ssh/id... 阅读全文

posted @ 2014-11-29 16:40 咖啡猫1292 阅读(394) 评论(0) 推荐(0)

ZooKeeper启动过程

摘要：ZooKeeper启动过程1.如何启动zkServer.sh【Linux】或 zkServer.cmd【Windows】以zkServer.cmd为例（zkServer.sh中内容太多）：可以清晰的看出：调用了QuorumPeerMain这个类，传的参数为%ZOOCFG%【在zkEnv.cmd中定义... 阅读全文

posted @ 2014-11-25 12:17 咖啡猫1292 阅读(387) 评论(0) 推荐(0)

ZooKeeper启动过程2：FastLeaderElection

摘要：前一篇文章中说到，启动ZooKeeper集群时，需要分别启动集群中的各个节点，各节点以QuorumPeer的形式启动，最后到达startLeaderElection和lookForLeader。先说startLeaderElection首先，初始化节点自身的currentVote【当前投票】为【my... 阅读全文

posted @ 2014-11-25 12:16 咖啡猫1292 阅读(259) 评论(0) 推荐(0)

zookeeper启动失败无法查看status-----用户权限

摘要：最近一直在调试zookeeper，总是出现莫名其妙的问题QuorumPeerMain 进程存在，但是无法查看status，JMX enabled by defaultUsing config: /data/programfiles/zookeeper-3.4.5/bin/../conf/zoo.cf... 阅读全文

posted @ 2014-11-25 11:26 咖啡猫1292 阅读(836) 评论(0) 推荐(0)

图解Nosql（hbase）与传统数据库的区别

摘要：图解Nosql（hbase）与传统数据库的区别http://www.aboutyun.com/thread-7804-1-1.html(出处: about云开发)问题导读：1.nosql数据库能否删除列2.nosql数据库如何删除一条记录3.nosql数据库列族和lieder区别是什么？4.nosq... 阅读全文

posted @ 2014-11-23 21:22 咖啡猫1292 阅读(1384) 评论(0) 推荐(0)

在Hadoop集群中添加机器和删除机器

摘要：本文转自：http://www.cnblogs.com/gpcuster/archive/2011/04/12/2013411.html无论是在Hadoop集群中添加机器和删除机器，都无需停机，整个服务不中断。本次操作之前，Hadoop的集群情况如下：HDFS的机器情况如下：MR的机器情况如下：添加... 阅读全文

posted @ 2014-11-14 14:56 咖啡猫1292 阅读(250) 评论(0) 推荐(0)

MapReduce数据流（一）

摘要：在上一篇文章中我们讲解了一个基本的MapReduce作业由那些基本组件组成，从高层来看，所有的组件在一起工作时如下图所示：图4.4高层MapReduce工作流水线 MapReduce的输入一般来自HDFS中的文件，这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点... 阅读全文

posted @ 2014-11-07 23:03 咖啡猫1292 阅读(268) 评论(0) 推荐(0)

MapReduce数据流（二）

摘要：输入块（InputSplit）：一个输入块描述了构成MapReduce程序中单个map任务的一个单元。把一个MapReduce程序应用到一个数据集上，即是指一个作业，会由几个（也可能几百个）任务组成。Map任务可能会读取整个文件，但一般是读取文件的一部分。默认情况下，FileInputFormat... 阅读全文

posted @ 2014-11-07 23:02 咖啡猫1292 阅读(131) 评论(0) 推荐(0)

MapReduce 重要组件——Recordreader组件

摘要：（1）以怎样的方式从分片中读取一条记录，每读取一条记录都会调用RecordReader类；（2）系统默认的RecordReader是LineRecordReader，如TextInputFormat；而SequenceFileInputFormat的RecordReader是SequenceFile... 阅读全文

posted @ 2014-11-07 23:01 咖啡猫1292 阅读(474) 评论(0) 推荐(0)

关于Mapper、Reducer的个人总结（转）

摘要：Mapper的处理过程：1.1. InputFormat 产生 InputSplit，并且调用RecordReader将这些逻辑单元（InputSplit）转化为map task的输入。其中InputSplit是map task处理的最小输入单元的逻辑表示。1.2. 在客户端代码中调用Job类来设置... 阅读全文

posted @ 2014-11-07 19:55 咖啡猫1292 阅读(430) 评论(0) 推荐(0)

Hadoop中常用的InputFormat、OutputFormat（转）

摘要：Hadoop中的Map Reduce框架依赖InputFormat提供数据，依赖OutputFormat输出数据，每一个Map Reduce程序都离不开它们。Hadoop提供了一系列InputFormat和OutputFormat方便开发，本文介绍几种常用的：TextInputFormat作为默认的... 阅读全文

posted @ 2014-11-01 10:11 咖啡猫1292 阅读(264) 评论(0) 推荐(0)

namenode 无法启动之每次开机需要重新格式化-tmp

摘要：最近遇到了一个问题，执行start-all.sh的时候发现JPS一下namenode没有启动每次开机都得重新格式化一下namenode才可以其实问题就出在tmp文件，默认的tmp文件每次重新开机会被清空，与此同时namenode的格式化信息就会丢失于是我们得重新配置一个tmp... 阅读全文

posted @ 2014-10-30 11:39 咖啡猫1292 阅读(486) 评论(0) 推荐(0)

namenode 和datanode无法启动，错误：FSNamesystem initialization failed. datanode.DataNode: Incompatible namespaceIDs

摘要：问题一：namenode无法启动，查看日志，错误信息如下：org.apache.hadoop.hdfs.server.namenode.FSNamesystem: FSNamesystem initialization failed.java.io.IOException: NameNode is ... 阅读全文

posted @ 2014-10-28 14:44 咖啡猫1292 阅读(1068) 评论(0) 推荐(0)

Hadoop 重启各个节点

摘要：对于datanode可以在master中配置，然后在maste启动的时候，一并去启动这些节点。对于死掉的节点，也可以通过以下命令启动。重启挂掉的节点进入到挂掉的机器bin/hadoop-daemon.sh start datanode //启动数据节点bin/hadoop-daemon.sh ... 阅读全文

posted @ 2014-10-26 16:20 咖啡猫1292 阅读(376) 评论(0) 推荐(0)

hadoop 常见问题

摘要：1、Eclipse 读取hdfs文件错误： java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724... 阅读全文

posted @ 2014-10-26 16:09 咖啡猫1292 阅读(130) 评论(0) 推荐(0)

深入剖析HADOOP程序日志

摘要：深入剖析HADOOP程序日志前提本文来自于博客园逖靖寒的世界http://gpcuster.cnblogs.com了解log4j的使用。正文本文来自于博客园逖靖寒的世界http://gpcuster.cnblogs.com*.log日志文件和*.out日志文件进入我们的Hadoop_LOG目录，... 阅读全文

posted @ 2014-10-20 16:52 咖啡猫1292 阅读(248) 评论(0) 推荐(0)

Map-Reduce的工作机制

摘要：Mapper“Map-Reduce”的思想就是“分而治之”Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”而执行“简单的任务”有几个意思：1、数据或计算规模相对于原任务要大大缩小；2、就近计算，即会被分配到存放了所需数据的节点进行计算。3、这些小任务可以并行计算，彼此间没有相互依赖的... 阅读全文

posted @ 2014-10-18 18:06 咖啡猫1292 阅读(319) 评论(0) 推荐(0)

咖啡猫

导航

随笔分类 - Hadoop