作业2

1.

Apache Hadoop版本分为两代,第一代Hadoop称为Hadoop1.0,第二代Hadoop称为Hadoop2.0。第一代Hadoop包含0.20.x、0.21.x、0.22.x三大版本,其中,0.20.x最后演化成1.0.x,变成了稳定版。而0.21.x和0.22.x则增加了HDFS HA等重要的新特性。第二代Hadoop包含0.23.x和2.x两大版本。他们完全不同于Hadoop1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统。

2.

 

 

HDFShadoop分布式文件系统)

mapreduce(分布式计算框架)

hive(基于hadoop的数据仓库)

hbase(分布式列存数据库)

zookeeper(分布式协作服务)

sqoop(数据同步工具)

pig(基于hadoop的数据流系统)

mahout(数据挖掘算法库)

flume(日志收集工具)

资源管理器的简单介绍(YARNmesos

3.

选择目标操作系统版本

选择Java版本并设置JAVA_HOME

获取Hadoop

安装依赖关系并设置构建环境

Native IO

生成并复制包文件

如果要安装多节点群集,请在每个节点上重复此步骤。

启动单节点(伪分布式)群集

HDFS配置

YARN配置

初始化环境变量

格式化文件系统

启动HDFS守护程序

启动YARN守护程序并运行YARN作业

4.

架构安全

FusionInsight HD基于开源组件实现功能增强,保持100%的开放性,不使用私有架构和组件。

认证安全

基于用户和角色的认证统一体系,遵从帐户/角色RBACRole-Based Access Control)模型,实现通过角色进行权限管理,对用户进行批量授权管理。

支持安全协议KerberosFusionInsight HD使用LDAP作为帐户管理系统,并通过Kerberos对帐户信息进行安全认证。

提供单点登录,统一了Manager系统用户和组件用户的管理及认证。

对登录FusionInsight Manager的用户进行审计。

文件系统层加密

HiveHBase可以对表、字段加密,集群内部用户信息禁止明文存储。

加密灵活:加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。

业务透明:上层业务只需指定敏感数据(Hive表级、HBase列族级加密),加解密过程业务完全不感知。

可靠

所有管理节点组件均实现HAHigh Availability

业界第一个实现所有组件HA的产品,确保数据的可靠性、一致性。NameNodeHive ServerHMasterResources Manager等管理节点均实现HA

集群异地灾备

业界第一个支持超过1000公里异地容灾的大数据平台,为日志详单类存储提供了迄今为止可靠性最佳实践。

数据备份恢复

表级别全量备份、增量备份,数据恢复(对本地存储的业务数据进行完整性校验,在发现数据遭破坏或丢失时进行自恢复)。

易用

统一运维管理

Manager作为FusionInsight HD的运维管理系统,提供界面化的统一安装、告警、监控和集群管理。

易集成

提供北向接口,实现与企业现有网管系统集成;当前支持Syslog接口,接口消息可通过配置适配现有系统;整个集群采用统一的集中管理,未来北向接口可根据需求灵活扩展。

易开发

提供自动化的二次开发助手和开发样例,帮助软件开发人员快速上手。

posted @ 2020-09-18 09:41  WindRainBow  阅读(205)  评论(0)    收藏  举报