大数据组相关(hadoop)

大数据组相关(hadoop)
20140722 Chenxin
文档资源列表:
http://hadoop.apache.org/docs/r1.0.4/cn/index.html

概念与原理
一个分布式系统基础架构，由Apache基金会所开发。
用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce.HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。
Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具，但它也可以解决许多要求极大伸缩性的问题。例如，如果您要 grep 一个 10TB 的巨型文件，会出现什么情况？在传统的系统上，这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题，采用并行执行机制，因此能大大提高效率。

发展历程
Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令，跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。
Hadoop最初只与网页索引有关，迅速发展成为分析大数据的领先平台。
Cloudera是一家企业软件公司，该公司在2008年开始提供基于Hadoop的软件和服务。
GoGrid是一家云计算基础设施公司，在2012年，该公司与Cloudera合作加速了企业采纳基于Hadoop应用的步伐。
Dataguise公司是一家数据安全公司，同样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估。

名字起源
Hadoop这个名字不是一个缩写，而是一个虚构的名字。该项目的创建者，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义，并且不会被用于别处。小孩子恰恰是这方面的高手。”

hadoop大数据处理的意义
Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务发送(Map)到多个节点上，之后再以单个数据集的形式加载(Reduce)到数据仓库里。

核心架构
Hadoop 集群的简化视图
Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System（HDFS），它存储 Hadoop 集群中所有存储节点上的文件。HDFS的上一层是MapReduce 引擎，该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。

HDFS
对外部客户机而言，HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。但是 HDFS 的架构是基于一组特定的节点构建的，这是由它自身的特点决定的。
这些节点包括 NameNode（仅一个），它在 HDFS 内部提供元数据服务；
DataNode，它为 HDFS 提供存储块。
由于仅存在一个 NameNode，因此这是 HDFS 的一个缺点（单点失败）。
存储在 HDFS 中的文件被分成块，然后将这些块复制到多个计算机中（DataNode）。这与传统的 RAID 架构大不相同。块的大小（通常为 64MB）和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

NameNode
NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。对于最常见的 3 个复制块，第一个复制块存储在同一机架的不同节点上，最后一个复制块存储在不同机架的某个节点上(跨交换机)。注意，这里需要您了解集群架构。
实际的 I/O事务并没有经过 NameNode，只有表示 DataNode 和块的文件映射的元数据经过 NameNode。当外部客户机发送请求要求创建文件时，NameNode 会以块标识和该块的第一个副本的 DataNode IP 地址作为响应。这个 NameNode 还会通知其他将要接收该块的副本的 DataNode。
NameNode 在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信息。这个文件和一个包含所有事务的记录文件（这里是 EditLog）将存储在 NameNode 的本地文件系统上。FsImage 和 EditLog 文件也需要复制副本，以防文件损坏或 NameNode 系统丢失。
NameNode本身不可避免地具有SPOF（Single Point Of Failure）单点失效的风险，主备模式并不能解决这个问题，通过Hadoop Non-stop namenode才能实现100% uptime可用时间。

DataNode
DataNode 也是一个通常在 HDFS实例中的单独机器上运行的软件。Hadoop 集群包含一个 NameNode 和大量 DataNode。
DataNode 通常以机架的形式组织，机架通过一个交换机将所有系统连接起来。Hadoop 的一个假设是：机架内部节点之间的传输速度快于机架间节点的传输速度。
DataNode 响应来自 HDFS 客户机的读写请求。它们还响应来自 NameNode 的创建、删除和复制块的命令。NameNode 依赖来自每个 DataNode 的定期心跳（heartbeat）消息。每条消息都包含一个块报告，NameNode 可以根据这个报告验证块映射和其他文件系统元数据。如果 DataNode 不能发送心跳消息，NameNode 将采取修复措施，重新复制在该节点上丢失的块。

文件操作
可见，HDFS 并不是一个万能的文件系统。它的主要目的是支持以流的形式访问写入的大型文件。
如果客户机想将文件写到 HDFS 上，首先需要将该文件缓存到本地的临时存储。如果缓存的数据大于所需的 HDFS 块大小，创建文件的请求将发送给 NameNode。NameNode 将以 DataNode 标识和目标块响应客户机。
同时也通知将要保存文件块副本的 DataNode。当客户机开始将临时文件发送给第一个 DataNode 时，将立即通过管道方式将块内容转发给副本 DataNode。客户机也负责创建保存在相同 HDFS名称空间中的校验和（checksum）文件。
在最后的文件块发送之后，NameNode 将文件创建提交到它的持久化元数据存储（在 EditLog 和 FsImage 文件）。

Linux 集群
Hadoop 框架可在单一的 Linux 平台上使用（开发和调试时），官方提供MiniCluster作为单元测试使用，不过使用存放在机架上的商业服务器才能发挥它的力量。这些机架组成一个 Hadoop 集群。它通过集群拓扑知识决定如何在整个集群中分配作业和文件。Hadoop 假定节点可能失败，因此采用本机方法处理单个计算机甚至所有机架的失败。

集群系统
Google的数据中心使用廉价的Linux PC机组成集群，在上面运行各种应用。即使是分布式开发的新手也可以迅速使用Google的基础设施。核心组件是3个：
1.GFS（Google File System）。一个分布式文件系统，隐藏下层负载均衡，冗余复制等细节，对上层程序提供一个统一的文件系统API接口。Google根据自己的需求对它进行了特别优化，包括：超大文件的访问，读操作比例远超过写操作，PC机极易发生故障造成节点失效等。GFS把文件分成64MB的块，分布在集群的机器上，使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点，根据文件索引，找寻文件块。详见Google的工程师发布的GFS论文。
2.MapReduce。Google发现大多数分布式运算可以抽象为MapReduce操作。Map是把输入Input分解成中间的Key/Value对，Reduce把Key/Value合成最终输出Output。这两个函数由程序员提供给系统，下层设施把Map和Reduce操作分布在集群上运行，并把结果存储在GFS上。
3.BigTable。一个大型的分布式数据库，这个数据库不是关系式的数据库。像它的名字一样，就是一个巨大的表格，用来存储结构化的数据。
以上三个设施Google均有论文发表。
《The Google File System 》 2003年[5]
《MapReduce: Simplified Data Processing on Large Clusters》 2004年[6]
《Bigtable: A Distributed Storage System for Structured Data》 2006年[7]

应用程序
Hadoop 的最常见用法之一是 Web 搜索。虽然它不是惟一的软件框架应用程序，但作为一个并行数据处理引擎，它的表现非常突出。Hadoop 最有趣的方面之一是 Map and Reduce 流程，它受到Google开发的启发。这个流程称为创建索引，它将 Web爬行器检索到的文本 Web 页面作为输入，并且将这些页面上的单词的频率报告作为结果。然后可以在整个 Web 搜索过程中使用这个结果从已定义的搜索参数中识别内容。

MapReduce
最简单的 MapReduce应用程序至少包含 3 个部分：一个 Map 函数、一个 Reduce 函数和一个 main 函数。main 函数将作业控制和文件输入/输出结合起来。在这点上，Hadoop 提供了大量的接口和抽象类，从而为 Hadoop应用程序开发人员提供许多工具，可用于调试和性能度量等。
MapReduce 本身就是用于并行处理大数据集的软件框架。MapReduce 的根源是函数性编程中的 map 和 reduce 函数。它由两个可能包含有许多实例（许多 Map 和 Reduce）的操作组成。Map 函数接受一组数据并将其转换为一个键/值对列表，输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表，然后根据它们的键（为每个键生成一个键/值对）缩小键/值对列表。
这里提供一个示例，帮助您理解它。假设输入域是 one small step for man,one giant leap for mankind。在这个域上运行 Map 函数将得出以下的键/值对列表：
（one,1） (small,1） (step,1） (for,1） (man,1）

显示处理和存储的物理分布的 Hadoop 集群
设有两个输入域，第一个是 one small step for man，第二个是 one giant leap for mankind。您可以在每个域上执行 Map 函数和 Reduce 函数，然后将这两个键/值对列表应用到另一个 Reduce 函数，这时得到与前面一样的结果。换句话说，可以在输入域并行使用相同的操作，得到的结果是一样的，但速度更快。这便是 MapReduce 的威力；它的并行功能可在任意数量的系统上使用。以区段和迭代的形式演示这种思想。
回到 Hadoop 上，它是如何实现这个功能的？一个代表客户机在单个主系统上启动的 MapReduce应用程序称为 JobTracker。类似于 NameNode，它是 Hadoop 集群中惟一负责控制 MapReduce应用程序的系统。在应用程序提交之后，将提供包含在 HDFS 中的输入和输出目录。JobTracker 使用文件块信息（物理量和位置）确定如何创建其他 TaskTracker 从属任务。MapReduce应用程序被复制到每个出现输入文件块的节点。将为特定节点上的每个文件块创建一个惟一的从属任务。每个 TaskTracker 将状态和完成信息报告给 JobTracker。
Hadoop 的这个特点非常重要，因为它并没有将存储移动到某个位置以供处理，而是将处理移动到存储。这通过根据集群中的节点数调节处理，因此支持高效的数据处理。

开源实现
Hadoop是项目的总称。主要是由HDFS和MapReduce组成。
HDFS是Google File System（GFS）的开源实现。
MapReduce是Google MapReduce的开源实现。
这个分布式框架很有创造性，而且有极大的扩展性，使得Google在系统吞吐量上有很大的竞争力。因此Apache基金会用Java实现了一个开源版本，支持Fedora、Ubuntu等Linux平台。雅虎和硅谷风险投资公司Benchmark Capital 联合成立一家名为Hortonworks的新公司，接管被广泛应用的数据分析软件Hadoop的开发工作。
Hadoop实现了HDFS文件系统和MapRecue。用户只要继承MapReduceBase，提供分别实现Map和Reduce的两个类，并注册Job即可自动分布式运行。
至今为止是2.4.0，稳定版本是1.2.1 和 yarn 的 2.4.0。

HDFS把节点分成两类：NameNode和DataNode。NameNode是唯一的，程序与之通信，然后从DataNode上存取文件。这些操作是透明的，与普通的文件系统API没有区别。
MapReduce则是JobTracker节点为主，分配工作以及负责和用户程序通信。
HDFS和MapReduce实现是完全分离的，并不是没有HDFS就不能MapReduce运算。
Hadoop也跟其他云计算项目有共同点和目标：实现海量数据的计算。而进行海量计算需要一个稳定的，安全的数据容器，才有了Hadoop分布式文件系统（HDFS，Hadoop Distributed File System）。
HDFS通信部分使用org.apache.hadoop.ipc，可以很快使用RPC.Server.start()构造一个节点，具体业务功能还需自己实现。针对HDFS的业务则为数据流的读写，NameNode/DataNode的通信等。
MapReduce主要在org.apache.hadoop.mapred，实现提供的接口类，并完成节点通信（可以不是hadoop通信接口），就能进行MapReduce运算。

子项目
Hadoop Common: 在0.20及以前的版本中，包含HDFS、MapReduce和其他项目公共内容，从0.21开始HDFS和MapReduce被分离为独立的子项目，其余内容为Hadoop Common
HDFS: Hadoop分布式文件系统(Distributed File System) － HDFS (Hadoop Distributed File System)
MapReduce：并行计算框架，0.20前使用 org.apache.hadoop.mapred 旧接口，0.20版本开始引入org.apache.hadoop.mapreduce的新API
HBase: 类似Google BigTable的分布式NoSQL列数据库。（HBase和Avro已经于2010年5月成为顶级 Apache 项目）
Hive：数据仓库工具，由Facebook贡献。
Zookeeper：分布式锁设施，提供类似Google Chubby的功能，由Facebook贡献。
Avro：新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制。
Pig: 大数据分析平台，为用户提供多种接口。
Ambari：Hadoop管理工具，可以快捷的监控、部署、管理集群。
Sqoop：于在HADOOP与传统的数据库间进行数据的传递。

研究
Hadoop是原Yahoo的Doug Cutting根据Google发布的学术论文研究而来。Doug Cutting给这个Project起了个名字，就叫Hadoop。
Doug Cutting在Cloudera公司任职。Cloudera的Hadoop是商用版。不同于Apache的开源版。
如果要研究Hadoop的话，下载Apache的开源版本是一种不错的选择。
只研究Apache版本的，不足以对Hadoop的理念理解。再对Cloudera版本的研究，会更上一层楼。
美国的AsterData，也是Hadoop的一个商用版，AsterData的MPP理念，Applications Within理念等等，也都是值得研究。
Google的成功已经说明了RDB的下一代就是Nosql（Not Only SQL），比如说GFS，Hadoop等等。
Hadoop作为开源软件来说，其魅力更是不可估量。
上文中说到Google的学术论文，其中包涵有：
Google File System（大规模分散文件系统）
MapReduce （大规模分散FrameWork）
BigTable（大规模分散数据库）
Chubby（分散锁服务）

Cloudera
现如今，企业和大型机构在寻求解决棘手的大数据问题时，往往会使用开源软件基础架构Hadoop的服务。
Hadoop中规模最大、知名度最高的是Cloudera.
由于Hadoop深受客户欢迎，许多公司都推出了各自版本的Hadoop，也有一些公司则围绕Hadoop开发产品。在Hadoop生态系统中，规模最大、知名度最高的公司则是Cloudera。
Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(Christophe Bisciglia)、埃姆·阿瓦达拉(Amr Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。
Cloudera’s Distribution Including Apache Hadoop，简称CDH

Cloudera的CDH和Apache的Hadoop的区别
目前而言，不收费的Hadoop版本主要有三个（均是国外厂商），分别是：Apache（最原始的版本，所有发行版均基于这个版本进行改进）、Cloudera版本（Cloudera’s Distribution Including Apache Hadoop，简称CDH）、Hortonworks版本(Hortonworks Data Platform，简称“HDP”），对于国内而言，绝大多数选择CDH版本，CDH和Apache版本主要区别如下：
1)CDH对Hadoop版本的划分非常清晰，只有两个系列的版本，分别是cdh3和cdh4，分别对应第一代Hadoop（Hadoop 1.0）和第二代Hadoop（Hadoop 2.0），相比而言，Apache版本则混乱得多；比Apache hadoop在兼容性，安全性，稳定性上有增强。
2)CDH3版本是基于Apache hadoop 0.20.2改进的，并融入了最新的patch，CDH4版本是基于Apache hadoop 2.X改进的,CDH总
是并应用了最新Bug修复或者Feature的Patch，并比Apache hadoop同功能版本提早发布，更新速度比Apache官方快。
3)安全.CDH支持Kerberos安全认证，apache hadoop则使用简陋的用户名匹配认证.
4)CDH文档清晰，很多采用Apache版本的用户都会阅读CDH提供的文档，包括安装文档、升级文档等。
5)CDH支持Yum/Apt包，Tar包，RPM包，Cloudera Manager四种方式安装,Apache hadoop只支持Tar包安装。
注：CDH使用推荐的Yum/Apt包安装时，有以下几个好处： 1、联网安装、升级，非常方便 2、自动下载依赖软件包 3、Hadoop生态系统包自动匹配，不需要你寻找与当前Hadoop匹配的Hbase，Flume，Hive等软件，Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包，并保证兼容性。
6)自动创建相关目录并软链到合适的地方（如conf和logs等目录）；自动创建hdfs, mapred用户，hdfs用户是HDFS的最高权限用户，mapred用户则负责mapreduce执行过程中相关目录的权限。

Hadoop管理员的十个最佳实践

接触Hadoop有两年的时间了，期间遇到很多的问题，既有经典的NameNode和JobTracker内存溢出故障，也有HDFS存储小文件问题，既有任务调度问题，也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷（短板），有些则是使用的不当。

在解决问题的过程中，有时需要翻源码，有时会向同事、网友请教，遇到复杂问题则会通过mail list向全球各地Hadoop使用者,包括Hadoop Committer（Hadoop开发者）求助。在获得很多人帮助后，自己将遇到问题和心得整理成文，希望本文可以对那些焦头烂额的Hadoop新手们有所帮助，少走笔者的弯路。

PS. 本文基于 Cloudera CDH 3u4（同Apache Hadoop 1.0）编写。相关推荐配置为官方推荐值或者笔者经验数值，它不是绝对的，可能会因为不同的应用场景和硬件环境有所出入。

选择Cloudera CDH部署你的Cluster
大多数管理员都是从Apache Hadoop开始学习。笔者最开始也使用Apache版本Hadoop进行开发和部署工作，但接触到Cloudera CDH后，我发现它可以使管理员的工作更简单，不仅可以获得最新的特性和Bug修复，有时也会带来令人惊喜的性能改善。
CDH为什么更好？笔者罗列了以下几点：
CDH基于稳定版Apache Hadoop，并应用了最新Bug修复或者Feature的Patch。Cloudera常年坚持季度发行Update版本，年度发行Release版本，更新速度比Apache官方快，而且在实际使用过程中CDH表现无比稳定，并没有引入新的问题。
Cloudera官方网站上安装、升级文档详细，省去Google时间。
CDH支持Yum/Apt包，Tar包，RPM包，Cloudera Manager四种方式安装，总有一款适合您。官方网站推荐Yum/Apt方式安装，笔者体会其好处如下：
联网安装、升级，非常方便。当然你也可以下载rpm包到本地，使用Local Yum方式安装。
自动下载依赖软件包，比如要安装Hive，则会级联下载、安装Hadoop。
Hadoop生态系统包自动匹配，不需要你寻找与当前Hadoop匹配的Hbase，Flume，Hive等软件，Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包，并保证兼容性。
自动创建相关目录并软链到合适的地方（如conf和logs等目录）；自动创建hdfs, mapred用户，hdfs用户是HDFS的最高权限用户，mapred用户则负责mapreduce执行过程中相关目录的权限。
Hadoop集群配置与管理
安装和维护Hadoop集群涉及大量的管理工作，包括软件安装，设备管理（crontab、iptables等）、配置分发等。
对于小型集群软件分发和节点管理可以使用PDSH这款软件，它可以通过免密钥的SSH将文件分发到目标服务器，以及为一组目标设备发送命令并获得反馈。如果是大型集群或者硬件配置差别很大的集群，推荐使用puppet这样的工具帮助你维护配置文件，或者通过Cloudera Manager以GUI的方式的管理集群（注意：Clodera Manager不是开源软件，免费版最多支持50个节点）。
开启SecondaryNameNode
SecondaryNameNode（下称SNN）的主要功能是工作是帮助NameNode（下称NN）合并编辑日志，然后将合并后的镜像文件copy回NN，以减少NN重启时合并编辑日志所需的时间。SNN不是NN的热备，但是通过以下步骤可以实现将SNN切换为NN的目的。首先，SNN节点上导入从NN Copy过来的镜像文件，然后修改SNN机器名和IP与NN一致，最后重启集群。
特别注意的是SNN的内存配置要与NN一致，因为合并编辑日志的工作需要将metadata加载到内存完成。另外，不仅仅是SNN，任何保存NN镜像的节点都可以通过上面步骤变为NN，只是SNN更适合罢了。
推荐理由：减少NN重启导致集群服务中断时间；NN节点故障后，SNN充当NN角色
使用Ganglia和Nagios监控你的集群
当运行一个大型mapreduce 作业时，我们通常非常关心该作业对TaskTracker（下称TT）CPU、内存、磁盘，以及整个网络的带宽情况，这时候就需要Ganglia这个工具为我们生成相关图表来诊断、分析问题。
Ganglia可以监控集群状态，但当你的服务器down机或者某个TT挂掉，它却无法通知到你，这时我们可以使用Nagios这款告警软件，它可以配置邮件告警和短息告警。通过编写plugins，可以实现自己的监控功能。我们的集群目前做了如下监控：
NameNode、JobTracker内存
DataNode和TaskTracker运行状态
NFS服务状态
磁盘使用情况
服务器负载状态
设置好内存至关重要
Hadoop集群安装完毕后，第一件事就是修改bin/hadoop-evn.sh文件设置内存。主流节点内存配置为32GB，典型场景内存设置如下
NN: 15-25 GB
JT：2-4GB
DN：1-4 GB
TT：1-2 GB，Child VM 1-2 GB
集群的使用场景不同相关设置也有不同，如果集群有大量小文件，则要求NN内存至少要20GB，DN内存至少2GB。
推荐理由：几个组件中NN对内存最为敏感，它有单点问题，直接影响到集群的可用性；JT同样是单点，如果JT内存溢出则所有MapReduce Job都无法正常执行。
管理员玩转MapReduce
Hadoop原生MapReduce需要Java语言编写，但是不会Java也没问题，通过Hadoop streaming框架管理员可以使用Python，Shell，Perl等语言进行MapReduce开发，但更简单的办法是安装和使用Hive或者Pig。
NameNode HA
前面已经说过，NN是整个集群可能出现的单点故障。
Hadoop通过在hdfs.site.xml文件的dfs.name.dir属性指定保持的metadata路径，如果希望保持到多个路径，可以使用逗号分割配置多个路径。

dfs.name.dir
/data/cache1/dfs/nn,/data/cache2/dfs/nn

Hadoop官方推荐配置为metadata配置多个path，其中包含一个NFS的路径。但根据笔者一次集群严重故障经验，即使这样，还是导致了所有镜像文件损坏，包括SNN上的镜像文件，所以定期备份一个可用的副本还是很有必要的。
推荐理由：Cloudera3uX和Apache1.0的NN单点问题是大家最头痛问题之一，多些准备，少许痛苦。
使用firewall阻止坏人进入
Hadoop的安全控制非常简单，只包含简单的权限，即只根据客户端用户名，决定使用权限。它的设计原则是：“避免好人做错事，但不阻止坏人做坏事”。
如果你知道某台NN的IP和端口，则可以很轻松获取HDFS目录结构，并通过修改本机机器用户名伪装成HDFS文件所属owner，对该文件进行删除操作。
通过配置kerberos，可以实现身份验证。但很多管理员使用更简单有效的办法——通过防火墙对访问IP进行控制。
开启垃圾箱(trash)功能
我曾经犯下一个错误，在我加班非常累，大脑稍有混乱的时候，不小心删除执行了一个命令“hadoop fs -rmr /xxx/xxx”，没有删除提示，几TB的数据，一下子就没有了。简直让我崩溃，后悔莫及。这时你多希望有个时间机器可以让HDFS恢复到删除前的状态。
trash功能就是这个时间机器，它默认是关闭的，开启后，被你删除的数据将会mv到操作用户目录的".Trash"文件夹，可以配置超过多长时间，系统自动删除过期数据。这样一来，当操作失误的时候，可以把数据mv回来。开启垃圾箱步骤如下：
vi core-site.xml ，添加下面配置，value单位为分钟。

fs.trash.interval
1440

笔者在CDH3u4下不用重启Namenode就可以生效。开启垃圾箱后，如果希望文件直接被删除，可以在使用删除命令时添加“–skipTrash” 参数，如下：
hadoop fs –rm –skipTrash /xxxx
去社区寻找帮助
Hadoop是一个非常优秀的开源项目，但它仍存有很多尚未解决的问题，诸如，NN,JT单点问题，JT挂死问题，Block在小文件下汇报效率低下等问题。此时可以通过如下渠道找到可以帮助你的人，笔者几次集群严重故障都是通过Cloudera公司的google user group直接获得几位 committer的帮助。通常前一天提问，第二天就会有反馈。下面是两个能够帮助的你的社区，当然你也可以帮助其他人：
Apache hadoop的mail list :
http://hadoop.apache.org/mailing_lists.html
Cloudera CDH google group:
https://groups.google.com/a/cloudera.org/forum/#!forum/cdh-user

作者介绍：
张月， Java程序员，7年工作经验，2007年加入蓝汛chinacache至今，目前从事Hadoop相关工作，关注敏捷和海量数据领域，关注软件开发过程。他拥有Cloudera Certified Administrator for Apache Hadoop （CCAH）和Cloudera Certified Developer for Apache Hadoop （CCDH）证书，博客：heipark.iteye.com

部署
关键词:
hadoop
cloudera manager
cdh
cdfs
...
Cloudera Manager and CDH安装及配置

1.服务器列表(1-4机房10-15柜):
192.168.7.5 101.251.192.5 NameNode Active
192.168.7.6 101.251.192.6 NameNode StandBy
192.168.7.7 101.251.192.7 SecondNameNode/ResourceManager
192.168.7.14 101.251.192.14 DataNode/NodeNamanger
192.168.7.15 101.251.192.15 DataNode/NodeNamanger
192.168.7.16 101.251.192.16 DataNode/NodeNamanger
192.168.7.17 101.251.192.17 DataNode/NodeNamanger

2.账号:
SSH
bigdata
lke7420ij0,fa!s#zx
ssh端口:4399

mysql
mysql用户名:bigdata
nhs56sv#wis
mysql:3306

GRANT ALL PRIVILEGES ON . TO admin@localhost IDENTIFIED BY 'XXX' WITH GRANT OPTION;

GRANT ALL PRIVILEGES ON hue.* TO bigdata@localhost IDENTIFIED BY 'nhs56sv#wis';
GRANT ALL PRIVILEGES ON hue.* TO bigdata@'192.168.%' IDENTIFIED BY 'nhs56sv#wis';
GRANT ALL PRIVILEGES ON hue.* TO bigdata@'125.70.0.195' IDENTIFIED BY 'nhs56sv#wis';
GRANT ALL PRIVILEGES ON hue.* TO bigdata@'119.4.240.191' IDENTIFIED BY 'nhs56sv#wis';
GRANT ALL PRIVILEGES ON hue.* TO bigdata@'125.71.203.241' IDENTIFIED BY 'nhs56sv#wis';

之前忘记加admin账号了,导致无法建库.在启动my.cnf中添加:
skip-grant-tables

然后用无密码的方式登陆mysql,输入以下:
use mysql
insert into mysql.user values ('localhost','admin','*2447D497B9A6A15F2776055CB2D1E9F86758182F','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','Y','','','','',0,0,0,0,'',NULL);
这里的密码是md5加密的,密码是oracle

控制台CM:
http://101.251.192.6:7180/cmf/login
用户:bigdata
密码:@#1$#@QW4d5%*4@3 CM的账号秘密

3.产品组操作说明

数据保存说明:
/home/bigdata/ 目录供程序数据或临时数据使用(68GB)
/data/ 目录供业务数据保存使用(152GB)
不相关数据请勿保存在服务器上,临时使用的数据请使用完毕后,即及时删除.
重要业务数据务必定期备份(备份请联系运维操作,以及制定备份频率).
如需安装软件,请联系运维.特殊操作,请务必将所有软件安装到/usr/local/XXX(软件名)/下.
运维工程师操作服务器时,请务必将所有安装软件放置于/opt/目录下,并长期保存,以便故障排查.
/tmp/目录一般不直接使用.如果需要使用,可以放置临时文件,但使用完毕后,务必删除.

操作权限说明:
需要额外权限请联系运维,协商安排sudo权限.
服务器仅允许公司内部登陆,公司以外的地方无法登陆.
无法更改登陆服务器账号,如需变更账号或密码请联系运维.
服务器对外禁ping

相关服务说明:
与业务不相关服务,禁止开启.
不得在生产服上部署非公司类业务或个人服务.

密码秘钥保存与使用:
密码必须设置为12位以上(字母+数字+特殊符号).
请加密保存重要密码秘钥,禁止以纸条等明文方式放置在显著位置处.
密码秘钥不得发放给不相关人员.
产品组有人员离职情况,请及时通知运维变更密码秘钥.

haddoop集群软件安装
visudo中,加入具有更高权限的账号:
bigdata ALL=(ALL) NOPASSWD: ALL

基于JRE的软件,含PostgreSQL(7432端口)
101.251.192.5上:
cloudera-manager-installer.bin
按照提示,一步步接受license.
默认安装到/opt/下.
登陆url http://101.251.192.5:7180/cmf/login 进行配置.
安装后,目录如下:

/opt/cloudera/安装目录
├── csd
└── parcel-repo

/home/bigdata/cloudera/
└── parcels

/home/bigdata/hadoop/上传文件
├── CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel.filepart
└── cloudera-manager-installer.bin

chkconfig --list|grep 3:on
cloudera-scm-server 0:off 1:off 2:off 3:on 4:on 5:on 6:off
cloudera-scm-server-db 0:off 1:off 2:off 3:on 4:on 5:on 6:off

find / -name cloudera-scm-server
/var/lib/cloudera-scm-server
/var/run/cloudera-scm-server
/var/log/cloudera-scm-server
/etc/cloudera-scm-server
/etc/default/cloudera-scm-server
/etc/rc.d/init.d/cloudera-scm-server

.5 .6 两台上bigdata账号下放置私钥,其他机器放置公钥,以便文件从.5和.6上分发到其他机器.

cat /etc/cloudera-scm-server/db.properties
com.cloudera.cmf.db.type=postgresql
com.cloudera.cmf.db.host=localhost:7432
com.cloudera.cmf.db.name=scm
com.cloudera.cmf.db.user=scm
com.cloudera.cmf.db.password=r4lIHLpAro

cat /etc/cloudera-scm-server/db.mgmt.properties

Auto-generated by initialize_embedded_db.sh

20140722-105102

These are database credentials for databases

created by "cloudera-scm-server-db" for

Cloudera Manager Management Services,

to be used during the installation wizard if

the embedded database route is taken.

The source of truth for these settings

is the Cloudera Manager databases and

changes made here will not be reflected

there automatically.

com.cloudera.cmf.ACTIVITYMONITOR.db.type=postgresql
com.cloudera.cmf.ACTIVITYMONITOR.db.host=zw-104-10-15-5:7432
com.cloudera.cmf.ACTIVITYMONITOR.db.name=amon
com.cloudera.cmf.ACTIVITYMONITOR.db.user=amon
com.cloudera.cmf.ACTIVITYMONITOR.db.password=M0dstEROxi
com.cloudera.cmf.REPORTSMANAGER.db.type=postgresql
com.cloudera.cmf.REPORTSMANAGER.db.host=zw-104-10-15-5:7432
com.cloudera.cmf.REPORTSMANAGER.db.name=rman
com.cloudera.cmf.REPORTSMANAGER.db.user=rman
com.cloudera.cmf.REPORTSMANAGER.db.password=QorUZNLemH
com.cloudera.cmf.NAVIGATOR.db.type=postgresql
com.cloudera.cmf.NAVIGATOR.db.host=zw-104-10-15-5:7432
com.cloudera.cmf.NAVIGATOR.db.name=nav
com.cloudera.cmf.NAVIGATOR.db.user=nav
com.cloudera.cmf.NAVIGATOR.db.password=DKqE4QCGe6

cat /etc/cloudera-scm-server/log4j.properties

!!!!! IMPORTANT !!!!!

The Cloudera Manager server finds its log file by querying log4j. It

assumes that the first file appender in this file is the server log.

See LogUtil.getServerLogFile() for more details.

Define some default values that can be overridden by system properties

cmf.root.logger=INFO,CONSOLE
cmf.log.dir=.
cmf.log.file=cmf-server.log

Define the root logger to the system property "cmf.root.logger".

log4j.rootLogger=${cmf.root.logger}

Logging Threshold

log4j.threshhold=ALL

Disable most JDBC tracing by default.

log4j.logger.org.jdbcdslog=FATAL

Disable overly loud Avro IPC logging

log4j.logger.org.apache.avro.ipc.NettyTransceiver=FATAL

Disable overly loud Flume config validation logging

log4j.logger.org.apache.flume.conf.FlumeConfiguration=ERROR

log4j.appender.CONSOLE=org.apache.log4j.ConsoleAppender
log4j.appender.CONSOLE.target=System.err
log4j.appender.CONSOLE.layout=org.apache.log4j.PatternLayout
log4j.appender.CONSOLE.layout.ConversionPattern=%d{ISO8601} %5p [%t:%c{2}@%L] %m%n

log4j.appender.LOGFILE=org.apache.log4j.RollingFileAppender
log4j.appender.LOGFILE.MaxFileSize=10MB
log4j.appender.LOGFILE.MaxBackupIndex=10
log4j.appender.LOGFILE.File=${cmf.log.dir}/${cmf.log.file}
log4j.appender.LOGFILE.layout=org.apache.log4j.PatternLayout
log4j.appender.LOGFILE.layout.ConversionPattern=%d{ISO8601} %5p [%t:%c{2}@%L] %m%n

上传文件:
/usr/local/cloudera/
├── parcel-cache
└── parcel-repo
├── CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel
├── CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel.sha
└── manifest.json

已启用“透明大页面”，它可能会导致重大的性能问题。版本为“CentOS release 6.4 (Final)”且发行版为“2.6.32-358.el6.x86_64”的 Kernel 已将 enabled 设置为“[always] never”，并将 defrag 设置为“[always] never”。请运行“echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag”以禁用此设置，然后将同一命令添加到一个 init 脚本中，如 /etc/rc.local，这样当系统重启时就会予以设置。或者，升级到 RHEL 6.5 或更新版本，它们不存在此错误。将会影响到以下主机：

接下来安装Hadoop
echo 0 > /proc/sys/vm/swappiness
略

posted @ 2020-04-21 15:00 ChanixChen 阅读(511) 评论(0) 收藏举报

刷新页面返回顶部

热爱技术的老IT-Chanix