作业2
1.
Apache Hadoop版本分为两代,第一代Hadoop称为Hadoop1.0,第二代Hadoop称为Hadoop2.0。第一代Hadoop包含0.20.x、0.21.x、0.22.x三大版本,其中,0.20.x最后演化成1.0.x,变成了稳定版。而0.21.x和0.22.x则增加了HDFS HA等重要的新特性。第二代Hadoop包含0.23.x和2.x两大版本。他们完全不同于Hadoop1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统。
2.

HDFS(hadoop分布式文件系统)
mapreduce(分布式计算框架)
hive(基于hadoop的数据仓库)
hbase(分布式列存数据库)
zookeeper(分布式协作服务)
sqoop(数据同步工具)
pig(基于hadoop的数据流系统)
mahout(数据挖掘算法库)
flume(日志收集工具)
资源管理器的简单介绍(YARN和mesos)
3.
选择目标操作系统版本
选择Java版本并设置JAVA_HOME
获取Hadoop源
安装依赖关系并设置构建环境
Native IO
生成并复制包文件
如果要安装多节点群集,请在每个节点上重复此步骤。
启动单节点(伪分布式)群集
HDFS配置
YARN配置
初始化环境变量
格式化文件系统
启动HDFS守护程序
启动YARN守护程序并运行YARN作业
4.
架构安全
FusionInsight HD基于开源组件实现功能增强,保持100%的开放性,不使用私有架构和组件。
认证安全
基于用户和角色的认证统一体系,遵从帐户/角色RBAC(Role-Based Access Control)模型,实现通过角色进行权限管理,对用户进行批量授权管理。
支持安全协议Kerberos,FusionInsight HD使用LDAP作为帐户管理系统,并通过Kerberos对帐户信息进行安全认证。
提供单点登录,统一了Manager系统用户和组件用户的管理及认证。
对登录FusionInsight Manager的用户进行审计。
文件系统层加密
Hive、HBase可以对表、字段加密,集群内部用户信息禁止明文存储。
加密灵活:加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。
业务透明:上层业务只需指定敏感数据(Hive表级、HBase列族级加密),加解密过程业务完全不感知。
可靠
所有管理节点组件均实现HA(High Availability)
业界第一个实现所有组件HA的产品,确保数据的可靠性、一致性。NameNode、Hive Server、HMaster、Resources Manager等管理节点均实现HA。
集群异地灾备
业界第一个支持超过1000公里异地容灾的大数据平台,为日志详单类存储提供了迄今为止可靠性最佳实践。
数据备份恢复
表级别全量备份、增量备份,数据恢复(对本地存储的业务数据进行完整性校验,在发现数据遭破坏或丢失时进行自恢复)。
易用
统一运维管理
Manager作为FusionInsight HD的运维管理系统,提供界面化的统一安装、告警、监控和集群管理。
易集成
提供北向接口,实现与企业现有网管系统集成;当前支持Syslog接口,接口消息可通过配置适配现有系统;整个集群采用统一的集中管理,未来北向接口可根据需求灵活扩展。
易开发
提供自动化的二次开发助手和开发样例,帮助软件开发人员快速上手。
                    
                
                
            
        
浙公网安备 33010602011771号