随笔分类 -  Big Data

摘要:1:在flume/job下配置flume-file-logger.conf配置文件 2:在flume根目录下开启监听(注意,如果当天没有使用hive产生过日志文件的话先操作hive产生当天日志文件) 3:操作hive产生日志文件,查看控制台 阅读全文
posted @ 2020-04-12 11:39 拔丝小红薯 阅读(824) 评论(0) 推荐(0)
摘要:1:将Hadoop相关jar包放到/opt/module/flume/lib文件夹下 2:在flume/job文件夹下创建 flume-file-hdfs.conf文件 3:在配置文件中添加如下配置 4:在flume根目录执行监控配置 5:开启hdfs、yarn、hive 6:执行hive操作产生日 阅读全文
posted @ 2020-04-10 20:16 拔丝小红薯 阅读(782) 评论(0) 推荐(0)
摘要:一:DDL 1:创建数据库 CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] //对数据库的描述 [LOCATION hdfs_path] //手动设置数据库存储路径 [WITH DBPROPERTIES 阅读全文
posted @ 2020-04-10 20:03 拔丝小红薯 阅读(979) 评论(0) 推荐(0)
摘要:一:什么是Hive? Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 Hive本质是:将 HQL 转化成 MapReduce 程序 Hive 处理的数据存储在 阅读全文
posted @ 2020-04-04 09:51 拔丝小红薯 阅读(351) 评论(0) 推荐(0)
摘要:一:创建永久节点 二:获取节点数据 三:设置节点数据 阅读全文
posted @ 2020-03-26 20:50 拔丝小红薯 阅读(136) 评论(0) 推荐(0)
摘要:一:ZK的选举机制 假使有3台服务器,id分别为1、2、3: 1、服务器1启动,投自己一票,启动的服务器未达半数以上,此时状态为looking 2、服务器2启动,重新投票,1和2都投自己1票并交换选票信息,1发现2的id比自己大,把自己的票重写投给2,此时服务器已经启动半数以上,完成选举。1为0票, 阅读全文
posted @ 2020-03-26 20:32 拔丝小红薯 阅读(482) 评论(0) 推荐(0)
摘要:一:什么是Zookeeper? ZK是一个开源的分布式协调服务。他提供了一组简单的原生接口,分布式应用可以基于它实现,高水准的同步,集群,配置管理和命名服务。它基于开发, 使用简单的原则而设计。使用类似于文件系统目录树结构的数据模型。它基于java实现,可以为c和java应用服务。 二:他能干什么? 阅读全文
posted @ 2020-03-26 19:57 拔丝小红薯 阅读(147) 评论(0) 推荐(0)
摘要:一:Combiner概念 (1)Combiner是MR程序中Mapper和Reduce之外的一种组件 (2)Combiner组件的父类就是Reducer (3)Combiner和Reduce的区别主要在于运行位置 Combiner是在每一个MapTask所在的节点运行 Reduce是在接受全局所有M 阅读全文
posted @ 2020-03-22 19:18 拔丝小红薯 阅读(442) 评论(0) 推荐(0)
摘要:一:排序概述 排序时是MapReduce框架最重要的操作之一 MapTask和ReduceTask均会对数据按照key进行排序,该操作是属于Hadoop的默认行为。任何应用程序中的数据均会被排序,不管你是否需要。 默认排序是按照字典顺序排序,实现该排序的方法是快速排序 二:排序分类 (1)全排序 只 阅读全文
posted @ 2020-03-22 19:05 拔丝小红薯 阅读(464) 评论(0) 推荐(0)
摘要:一:每次从环形缓存区溢写的数据都会写到一组分区的某一个里面,最后通过归约排序将所有组的分区归成一组分区。配合设置ReduceTast的个数可以实现将数据最终写出到多个文件中。 二:默认分区是根据key的hasCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区里。 三 阅读全文
posted @ 2020-03-22 17:29 拔丝小红薯 阅读(1065) 评论(0) 推荐(0)
摘要:Input阶段作用有两个,一是读取数据,二是对数据进行切片划分。 一、读取数据:Input是读取数据的总接口,默认使用FileInputFomart类。 二、(1)切片划分:将要处理的数据进行逻辑上的切片划分,每一个切片都对应一个mapTast任务。也就是说,将数据切成几片,就有几个mapTast任 阅读全文
posted @ 2020-03-18 12:44 拔丝小红薯 阅读(206) 评论(0) 推荐(0)
摘要:一:DataNode工作机制 (1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度、 快数据的校验和(验证数据完整性)以及时间戳 (2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有 阅读全文
posted @ 2020-03-15 21:21 拔丝小红薯 阅读(559) 评论(0) 推荐(0)
摘要:NameNode发生故障后恢复数据的两种方法(都不能恢复全部数据) 方法一:将SecondaryNameNode中的数据拷贝到NameNode存储数据的目录 方法二:使用-importCheckpoint选项启动NameNode守护进程,从而将SecondaryNameNode中数据拷贝到NameN 阅读全文
posted @ 2020-03-15 20:28 拔丝小红薯 阅读(180) 评论(0) 推荐(0)
摘要:一:概念 二:ovi命令查看FsImage文件 三:oev查看Edits文件 阅读全文
posted @ 2020-03-15 20:11 拔丝小红薯 阅读(212) 评论(0) 推荐(0)
摘要:一:NameNode的元数据怎么存储比较合适? 假如存储在磁盘里,因为NameNode需要频繁的响应客户端请求进行读写,效率会比较低。假如存在内存里的话, 一旦断电那么元数据就全部丢失了。 因此有了FsImage,它是存在磁盘里的元数据备份文件。每当NameNode启动时,从FsImage里拿取元数 阅读全文
posted @ 2020-03-15 20:01 拔丝小红薯 阅读(799) 评论(0) 推荐(0)
摘要:HDFS副本节点默认三个 第一个:存在Client(客户端)所处的节点,如果Client在集群外,那么随便选一个节点 第二个:位于第一个副本所在的节点的机架,随机一个节点 第三个:和第一副本处于不同机架上的随机一个节点 阅读全文
posted @ 2020-03-14 17:42 拔丝小红薯 阅读(201) 评论(0) 推荐(0)
摘要:HDFS的写入(上传)操作 (1)客户端向NameNode发出上传文件请求 (2)NameNode检查目标文件是否存在,父目录是否存在,然后响应客户端是否能上传 (3)客户端根据规定的块大小拆分数据,然后向NameNode询问第一个block(数据块)上传到哪些DataNode上 (4)NameNo 阅读全文
posted @ 2020-03-14 17:06 拔丝小红薯 阅读(175) 评论(0) 推荐(0)
摘要:在java中使用FileSystem类可以操作HDFS HDFS在linux下操作的命令在java中转变为对应的方法。 一些示例: (1)通过java在HDFS中创建文件夹 (2)从本地剪切文件到HDFS (3)文件详情查看 (4)文件或目录删除 (5)从本地复制文件到HDFS (6)从HDFS下载 阅读全文
posted @ 2020-03-14 15:33 拔丝小红薯 阅读(105) 评论(0) 推荐(0)
摘要:一:基本语法 bin/hadoop fs + 命令 bin/hadoop dfs + 命令 fs和dfs执行的是同一个类,所以用谁都一样 二:常用命令 阅读全文
posted @ 2020-03-13 21:31 拔丝小红薯 阅读(337) 评论(0) 推荐(0)
摘要:一:HDFS是什么? HDFS是分布式文件管理系统的一种,可以通过它管理多台机器上的文件。 简单地说,它是一个文件系统,通过目录树来定位文件,其次,它是分布式的,它把数据存储在多台机器上,实现大量数据的存储。 二:它的优点 (1)高容错性:每台机器上的数据都有多个备份,正在使用的数据出问题,可以由备 阅读全文
posted @ 2020-03-13 21:23 拔丝小红薯 阅读(485) 评论(0) 推荐(0)