作业2.Hadoop演进与Hadoop生态
- 了解对比Hadoop不同版本的特性,可以用图表的形式呈现。
Hadoop主要分为2个版本,分别为Hadoop1.0和2.0。2.0是1.0的升级版,Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架,被称为社区版Hadoop。他是免费的,而且资料真实准确,但是生态环境比较复杂。 - Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。
![]()
-
官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。
(1)下载 hadoop 安装包至安装目录
(2)解压安装包至软件目录(最好更名,以便之后方便配置文件)
- 1. 进入文件,准备配置
因为需要用到 java 的路径,可以代码查找,并复制至剪贴板备用
修改配置文件
注意修改路径和IP地址之类的变更项
- 2 配置 jdk 路径
#更换 JAVA_HOME 的路径- 修改核心配置文件
设置默认文件系统(本地默认 file:/位置)此处端口与HBASE端口设成一样
创建临时存储文件路径
授权访问用户为所有 root 型
授权访问用户为任意组的 root 型 - 设置文件副本个数
- 设置映射化简模型框架
这里需要复制 mapred-site.xml.template 临时文件,并在复制后的文件中配置(注意命名)
设置框架为 yarn - 设置 yarn 站点+节点
设置 yarn 站点名称为:localhost
设置辅助节点管理 - 添加环境变量的相关项
- 修改核心配置文件
启动调试是否配置成功
- 3 加载环境变量配置文件 格式化 NameNode
- 启动 Hadoop
- 检验启动是否成功后台进程应该有相关的5项
- 1. 进入文件,准备配置
- 评估华为hadoop发行版本的特点与可用性。
架构安全
FusionInsight HD基于开源组件实现功能增强,保持100%的开放性,不使用私有架构和组件。
认证安全
基于用户和角色的认证统一体系,遵从帐户/角色RBAC(Role-Based Access Control)模型,实现通过角色进行权限管理,对用户进行批量授权管理。
支持安全协议Kerberos,FusionInsight HD使用LDAP作为帐户管理系统,并通过Kerberos对帐户信息进行安全认证。
提供单点登录,统一了Manager系统用户和组件用户的管理及认证。
对登录FusionInsight Manager的用户进行审计。
文件系统层加密
Hive、HBase可以对表、字段加密,集群内部用户信息禁止明文存储。
加密灵活:加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。
业务透明:上层业务只需指定敏感数据(Hive表级、HBase列族级加密),加解密过程业务完全不感知。
可靠
所有管理节点组件均实现HA(High Availability)
业界第一个实现所有组件HA的产品,确保数据的可靠性、一致性。NameNode、Hive Server、HMaster、Resources Manager等管理节点均实现HA。
集群异地灾备
业界第一个支持超过1000公里异地容灾的大数据平台,为日志详单类存储提供了迄今为止可靠性最佳实践。
数据备份恢复
表级别全量备份、增量备份,数据恢复(对本地存储的业务数据进行完整性校验,在发现数据遭破坏或丢失时进行自恢复)。
易用
统一运维管理
Manager作为FusionInsight HD的运维管理系统,提供界面化的统一安装、告警、监控和集群管理。
易集成
提供北向接口,实现与企业现有网管系统集成;当前支持Syslog接口,接口消息可通过配置适配现有系统;整个集群采用统一的集中管理,未来北向接口可根据需求灵活扩展。
易开发
提供自动化的二次开发助手和开发样例,帮助软件开发人员快速上手


浙公网安备 33010602011771号