Big Data - 随笔分类 - 拔丝小红薯

实时监听hive日志文件，并将内容打印到控制台上

摘要：1：在flume/job下配置flume-file-logger.conf配置文件 2：在flume根目录下开启监听（注意，如果当天没有使用hive产生过日志文件的话先操作hive产生当天日志文件） 3：操作hive产生日志文件，查看控制台阅读全文

posted @ 2020-04-12 11:39 拔丝小红薯阅读(824) 评论(0) 推荐(0)

实时监控hive日志文件，并上传到hdfs

摘要：1：将Hadoop相关jar包放到/opt/module/flume/lib文件夹下 2：在flume/job文件夹下创建 flume-file-hdfs.conf文件 3：在配置文件中添加如下配置 4：在flume根目录执行监控配置 5：开启hdfs、yarn、hive 6：执行hive操作产生日阅读全文

posted @ 2020-04-10 20:16 拔丝小红薯阅读(782) 评论(0) 推荐(0)

Hive客户端基本操作

摘要：一：DDL 1：创建数据库 CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] //对数据库的描述 [LOCATION hdfs_path] //手动设置数据库存储路径 [WITH DBPROPERTIES 阅读全文

posted @ 2020-04-10 20:03 拔丝小红薯阅读(979) 评论(0) 推荐(0)

Hive简介

摘要：一：什么是Hive? Hive：由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。 Hive本质是：将 HQL 转化成 MapReduce 程序 Hive 处理的数据存储在阅读全文

posted @ 2020-04-04 09:51 拔丝小红薯阅读(351) 评论(0) 推荐(0)

客户端操作ZK练习

摘要：一：创建永久节点二：获取节点数据三：设置节点数据阅读全文

posted @ 2020-03-26 20:50 拔丝小红薯阅读(136) 评论(0) 推荐(0)

Zookeeper面试题

摘要：一：ZK的选举机制假使有3台服务器，id分别为1、2、3： 1、服务器1启动，投自己一票，启动的服务器未达半数以上，此时状态为looking 2、服务器2启动，重新投票，1和2都投自己1票并交换选票信息，1发现2的id比自己大，把自己的票重写投给2，此时服务器已经启动半数以上，完成选举。1为0票，阅读全文

posted @ 2020-03-26 20:32 拔丝小红薯阅读(482) 评论(0) 推荐(0)

Zookeeper概述

摘要：一：什么是Zookeeper？ ZK是一个开源的分布式协调服务。他提供了一组简单的原生接口，分布式应用可以基于它实现，高水准的同步，集群，配置管理和命名服务。它基于开发，使用简单的原则而设计。使用类似于文件系统目录树结构的数据模型。它基于java实现，可以为c和java应用服务。二：他能干什么？阅读全文

posted @ 2020-03-26 19:57 拔丝小红薯阅读(147) 评论(0) 推荐(0)

Combiner(合并)

摘要：一：Combiner概念（1）Combiner是MR程序中Mapper和Reduce之外的一种组件（2）Combiner组件的父类就是Reducer （3）Combiner和Reduce的区别主要在于运行位置 Combiner是在每一个MapTask所在的节点运行 Reduce是在接受全局所有M 阅读全文

posted @ 2020-03-22 19:18 拔丝小红薯阅读(442) 评论(0) 推荐(0)

WritableComparable(排序)

摘要：一：排序概述排序时是MapReduce框架最重要的操作之一 MapTask和ReduceTask均会对数据按照key进行排序，该操作是属于Hadoop的默认行为。任何应用程序中的数据均会被排序，不管你是否需要。默认排序是按照字典顺序排序，实现该排序的方法是快速排序二：排序分类（1）全排序只阅读全文

posted @ 2020-03-22 19:05 拔丝小红薯阅读(464) 评论(0) 推荐(0)

Partition(分区)

摘要：一：每次从环形缓存区溢写的数据都会写到一组分区的某一个里面，最后通过归约排序将所有组的分区归成一组分区。配合设置ReduceTast的个数可以实现将数据最终写出到多个文件中。二：默认分区是根据key的hasCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区里。三阅读全文

posted @ 2020-03-22 17:29 拔丝小红薯阅读(1065) 评论(0) 推荐(0)

MapReduce_input阶段

摘要：Input阶段作用有两个，一是读取数据，二是对数据进行切片划分。一、读取数据：Input是读取数据的总接口,默认使用FileInputFomart类。二、（1）切片划分：将要处理的数据进行逻辑上的切片划分，每一个切片都对应一个mapTast任务。也就是说，将数据切成几片，就有几个mapTast任阅读全文

posted @ 2020-03-18 12:44 拔丝小红薯阅读(206) 评论(0) 推荐(0)

DataNode

摘要：一：DataNode工作机制（1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度、快数据的校验和（验证数据完整性）以及时间戳（2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有阅读全文

posted @ 2020-03-15 21:21 拔丝小红薯阅读(559) 评论(0) 推荐(0)

NameNode故障处理

摘要：NameNode发生故障后恢复数据的两种方法（都不能恢复全部数据）方法一：将SecondaryNameNode中的数据拷贝到NameNode存储数据的目录方法二：使用-importCheckpoint选项启动NameNode守护进程，从而将SecondaryNameNode中数据拷贝到NameN 阅读全文

posted @ 2020-03-15 20:28 拔丝小红薯阅读(180) 评论(0) 推荐(0)

Edits和FsImage

摘要：一：概念二：ovi命令查看FsImage文件三：oev查看Edits文件阅读全文

posted @ 2020-03-15 20:11 拔丝小红薯阅读(212) 评论(0) 推荐(0)

NN和2NN工作机制

摘要：一：NameNode的元数据怎么存储比较合适？假如存储在磁盘里，因为NameNode需要频繁的响应客户端请求进行读写，效率会比较低。假如存在内存里的话，一旦断电那么元数据就全部丢失了。因此有了FsImage，它是存在磁盘里的元数据备份文件。每当NameNode启动时，从FsImage里拿取元数阅读全文

posted @ 2020-03-15 20:01 拔丝小红薯阅读(799) 评论(0) 推荐(0)

机架感知（副本节点的选择）

摘要：HDFS副本节点默认三个第一个：存在Client（客户端）所处的节点，如果Client在集群外，那么随便选一个节点第二个：位于第一个副本所在的节点的机架，随机一个节点第三个：和第一副本处于不同机架上的随机一个节点阅读全文

posted @ 2020-03-14 17:42 拔丝小红薯阅读(201) 评论(0) 推荐(0)

HDFS的读写流程

摘要：HDFS的写入（上传）操作（1）客户端向NameNode发出上传文件请求（2）NameNode检查目标文件是否存在，父目录是否存在，然后响应客户端是否能上传（3）客户端根据规定的块大小拆分数据，然后向NameNode询问第一个block（数据块）上传到哪些DataNode上（4）NameNo 阅读全文

posted @ 2020-03-14 17:06 拔丝小红薯阅读(175) 评论(0) 推荐(0)

HDFS在客户端的操作

摘要：在java中使用FileSystem类可以操作HDFS HDFS在linux下操作的命令在java中转变为对应的方法。一些示例：（1）通过java在HDFS中创建文件夹（2）从本地剪切文件到HDFS （3）文件详情查看（4）文件或目录删除（5）从本地复制文件到HDFS （6）从HDFS下载阅读全文

posted @ 2020-03-14 15:33 拔丝小红薯阅读(105) 评论(0) 推荐(0)

HDFS在linux上的操作命令

摘要：一：基本语法 bin/hadoop fs + 命令 bin/hadoop dfs + 命令 fs和dfs执行的是同一个类，所以用谁都一样二：常用命令阅读全文

posted @ 2020-03-13 21:31 拔丝小红薯阅读(337) 评论(0) 推荐(0)

HDFS概述

摘要：一：HDFS是什么？ HDFS是分布式文件管理系统的一种，可以通过它管理多台机器上的文件。简单地说，它是一个文件系统，通过目录树来定位文件，其次，它是分布式的，它把数据存储在多台机器上，实现大量数据的存储。二：它的优点（1）高容错性：每台机器上的数据都有多个备份，正在使用的数据出问题，可以由备阅读全文

posted @ 2020-03-13 21:23 拔丝小红薯阅读(485) 评论(0) 推荐(0)

拔丝小红薯

随笔分类 - Big Data

公告