随笔分类 - 大数据基础
大数据基础原理
摘要:一、Hive 1、简介 Hive是一个数据仓库软件。 Hive主要使用HQL(类sql)来分析已经存储在分布式设备(HDFS)上的数据! Hive的本质是将用户编写的HQL,转换为MR程序,对数据进行分析! Hive分析的数据必须是结构化的数据,在分析之前,用户需要对数据创建表结构! Hive的表结
阅读全文
摘要:一、Hadoop的HA 1、HA H(high)A(avilable): 高可用,意味着必须有容错机制,不能因为集群故障导致不可用! HDFS: 满足高可用 NN: 一个集群只有一个,负责接受客户端请求! DN: 一个集群可以启动N个 YARN: 满足高可用 RM: 一个集群只有一个,负责接受客户端
阅读全文
摘要:一、Zookeeper的简介 1、简介 Zookeeper是java编写的一个开源的分布式的存储中间件! Zookeeper可以用来存储分布式系统中各个进程都关心的核心数据! Zookeeper采取观察者模式设计,可以运行客户端在读取数据时,设置一个观察者一旦观察的节点触发了指定的事件,服务端会通知
阅读全文
摘要:一、MR的核心编程思想 1、概念 ① Job(作业) : 一个MR程序称为一个Job ② MRAppMaster(MR任务的主节点): 一个Job在运行时,会先启动一个进程,这个进程为 MRAppMaster。 负责Job中执行状态的监控,容错,和RM申请资源,提交Task等! ③ Task(任务)
阅读全文
摘要:一、HDFS知识点 HDFS的本质是一个文件系统,特点是分布式,需要在多台机器启动多个NN,DN进程组成一个分布式系统 1、HDFS不支持对文件的随机写 HDFS不支持对一个文件的并发写入,也不支持对文件的随机修改,可以追加,但是不能修改。 原因: 文件在HDFS上存储时,以block为基本单位存储
阅读全文
摘要:一、完全分布式集群搭建 1、规划 HDFS: 1个NN+N个DN YARN: 1个RM+N个NM 避免单点故障,NN和RM建议分散到多台机器。注意负载均衡。 hadoop101 hadoop102 hadoop103 DN DN DN NM NM NM NN RM 2NN 2、准备集群,安装软件 (
阅读全文
摘要:一、hadoop简介 1、优势 高可靠性:底层维护多个数据副本,所以即使hadoop某个计算元素或存储出现故障也不会导致数据丢失。 高扩展性:在集群间分配任务数据,可方便扩展很多节点 高效性:在MapRedurce的思想下,Hadoop是并行工作的,以加快任务的处理。 高容错性:能够自动将失败的任务
阅读全文

浙公网安备 33010602011771号