随笔分类 -  大数据实操指南

零基础大数据开发的入门手册
摘要:ZooKeeper简介 ZooKeeper是一个分布式应用程序协调服务,主要用于解决分布式集群中应用系统的一致性问题。它能提供类似文件系统的目录节点树方式的数据存储,主要用途是维护和监控所存数据的状态变化,以实现对集群的管理。 ZooKeeper应用场景:  统一命名  配置管理  集群管理 阅读全文
posted @ 2020-03-17 19:20 大数据实战派 阅读(1635) 评论(0) 推荐(0)
摘要:MapReduce简介 MapReduce常用于对大规模数据集(大于1TB)的并行运算,或对大数据进行加工、挖掘和优化等处理。 MapReduce将并行计算过程高度抽象到了两个函数map和reduce中,程序员只需负责map和reduce函数的编写工作,而并行程序中的其它复杂问题(如分布式存储、工作 阅读全文
posted @ 2020-03-17 19:16 大数据实战派 阅读(1064) 评论(0) 推荐(0)
摘要:HDFS简介 HDFS是Hadoop项目的核心子项目,在大数据开发中通过分布式计算对海量数据进行存储与管理,它基于流数据模式访问和处理超大文件的需求而开发,可以运行在廉价的商用服务器上,为海量数据提供了不怕故障的存储方法,进而为超大数据集的应用处理带来了很多便利。 HDFS的特点:  支持大型数据 阅读全文
posted @ 2020-03-17 19:07 大数据实战派 阅读(767) 评论(0) 推荐(0)
摘要:大数据开发总体架构: Hadoop是大数据开发所使用的一个核心框架。使用Hadoop可以方便的管理分布式集群,将海量数据分布式的存储在集群中,并使用分布式并行程序来处理这些数据。 Hadoop由许多子系统组成,如下图: Hadoop1.x与2.x的对比: YARN:管理集群资源(内存、CPU) 阅读全文
posted @ 2020-03-17 19:01 大数据实战派 阅读(225) 评论(0) 推荐(0)
摘要:[TOC] HBase集群建立在Hadoop集群基础之上,而且依赖于ZooKeeper,所以在搭建HBase集群之前需要把Hadoop集群搭建起来,并且搭建好ZooKeeper集群。Hadoop与ZooKeeper集群的搭建在前面章节已讲解过,在此不再赘述。 9.1 集群环境搭建 HBase集群搭建 阅读全文
posted @ 2018-07-11 10:49 大数据实战派 阅读(1072) 评论(0) 推荐(1)
摘要:[TOC] 8.1 集群环境搭建 【操作目的】 由于在ZooKeeper集群中,会有一个Leader服务器负责管理和协调其他集群服务器,因此服务器的数量通常都是单数,例如3,5,7...等,这样数量为2n+1的服务器就可以允许最多n台服务器的失效。 【操作步骤】 本例中,我们仍然使用三个节点搭建部署 阅读全文
posted @ 2018-07-10 16:38 大数据实战派 阅读(483) 评论(0) 推荐(0)
摘要:[TOC] ResourceManager (RM)负责跟踪集群中的资源,以及调度应用程序(例如,MapReduce作业)。在Hadoop 2.4之前,集群中只有一个ResourceManager,当其中一个宕机时,将影响整个集群。高可用性特性增加了冗余的形式,即一个主动/备用的ResourceMa 阅读全文
posted @ 2018-07-10 16:04 大数据实战派 阅读(6585) 评论(2) 推荐(1)
摘要:[TOC] 在Hadoop 2.0.0之前,一个HDFS集群中只有一个单一的NameNode,如果NameNode所在的节点宕机了或者因服务器软件升级导致NameNode进程不可用,则将导致整个集群无法访问,直到NameNode被重新启动。 HDFS高可用性(HDFS High Availabili 阅读全文
posted @ 2018-07-10 15:27 大数据实战派 阅读(4092) 评论(0) 推荐(0)
摘要:[TOC] 本章通过几个案例详细讲解MapReduce程序的编写与运行。 5.1 案例分析:单词计数 假如有这样一个例子,需要统计过去10年计算机论文中出现次数最多的几个单词,以分析当前的热点研究议题是什么。那么,在将论文样本收集完毕之后,接下来应该怎样做呢? 这一经典的单词计数案例可以采用MapR 阅读全文
posted @ 2018-07-10 13:58 大数据实战派 阅读(1666) 评论(0) 推荐(0)
摘要:[TOC] 4.1 命令行操作 可以通过命令行接口与HDFS系统进行交互,这样更加简单直观。下面就介绍一些HDFS系统的常用操作命令。 1.ls 使用ls命令可以查看HDFS系统中的目录和文件。例如,查看HDFS文件系统根目录下的目录和文件,命令如下: 递归列出HDFS文件系统根目录下的所有目录和文 阅读全文
posted @ 2018-07-10 11:11 大数据实战派 阅读(1438) 评论(0) 推荐(0)
摘要:[TOC] 3.1 配置各节点SSH无密钥登录 【操作目的】 Hadoop的进程间通信使用SSH(Secure Shell)方式。SSH是一种通信加密协议,使用非对称加密方式,可以避免网络窃听。为了使Hadoop各节点之间能够无密码相互访问,需要配置各节点的SSH无秘钥登录。 【登录原理】 SSH无 阅读全文
posted @ 2018-07-10 10:49 大数据实战派 阅读(785) 评论(0) 推荐(0)
摘要:[TOC] 2.1 关闭防火墙 【操作目的】 集群一般都是内网搭建的,如果内网内开启防火墙,内网集群通讯会容易出现很多问题。因此需要关闭集群中每个节点的防火墙。 【操作步骤】 执行以下命令进行关闭防火墙: 然后执行以下命令,禁止防火墙开机启动: 其它相关命令如下: 查看防火墙状态: 开启防火墙: 2 阅读全文
posted @ 2018-07-10 10:15 大数据实战派 阅读(500) 评论(0) 推荐(0)
摘要:[TOC] 本章讲解在VMware中安装CentOS虚拟机的步骤。使用的VMware Workstation版本为12.5.2,CentOS操作系统的版本为7.3(1611)。 1.1 下载CentOS7安装包 进入CentOS官网https://www.centos.org/ 下载CentOS7的 阅读全文
posted @ 2018-07-10 09:42 大数据实战派 阅读(329) 评论(0) 推荐(0)