2020 年 3月随笔档案 - 拔丝小红薯

摘要：一：创建永久节点二：获取节点数据三：设置节点数据阅读全文

posted @ 2020-03-26 20:50 拔丝小红薯阅读(136) 评论(0) 推荐(0)

摘要：一：ZK的选举机制假使有3台服务器，id分别为1、2、3： 1、服务器1启动，投自己一票，启动的服务器未达半数以上，此时状态为looking 2、服务器2启动，重新投票，1和2都投自己1票并交换选票信息，1发现2的id比自己大，把自己的票重写投给2，此时服务器已经启动半数以上，完成选举。1为0票，阅读全文

posted @ 2020-03-26 20:32 拔丝小红薯阅读(482) 评论(0) 推荐(0)

Zookeeper概述

摘要：一：什么是Zookeeper？ ZK是一个开源的分布式协调服务。他提供了一组简单的原生接口，分布式应用可以基于它实现，高水准的同步，集群，配置管理和命名服务。它基于开发，使用简单的原则而设计。使用类似于文件系统目录树结构的数据模型。它基于java实现，可以为c和java应用服务。二：他能干什么？阅读全文

posted @ 2020-03-26 19:57 拔丝小红薯阅读(150) 评论(0) 推荐(0)

Combiner(合并)

摘要：一：Combiner概念（1）Combiner是MR程序中Mapper和Reduce之外的一种组件（2）Combiner组件的父类就是Reducer （3）Combiner和Reduce的区别主要在于运行位置 Combiner是在每一个MapTask所在的节点运行 Reduce是在接受全局所有M 阅读全文

posted @ 2020-03-22 19:18 拔丝小红薯阅读(444) 评论(0) 推荐(0)

WritableComparable(排序)

摘要：一：排序概述排序时是MapReduce框架最重要的操作之一 MapTask和ReduceTask均会对数据按照key进行排序，该操作是属于Hadoop的默认行为。任何应用程序中的数据均会被排序，不管你是否需要。默认排序是按照字典顺序排序，实现该排序的方法是快速排序二：排序分类（1）全排序只阅读全文

posted @ 2020-03-22 19:05 拔丝小红薯阅读(464) 评论(0) 推荐(0)

Partition(分区)

摘要：一：每次从环形缓存区溢写的数据都会写到一组分区的某一个里面，最后通过归约排序将所有组的分区归成一组分区。配合设置ReduceTast的个数可以实现将数据最终写出到多个文件中。二：默认分区是根据key的hasCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区里。三阅读全文

posted @ 2020-03-22 17:29 拔丝小红薯阅读(1067) 评论(0) 推荐(0)

MapReduce_input阶段

摘要：Input阶段作用有两个，一是读取数据，二是对数据进行切片划分。一、读取数据：Input是读取数据的总接口,默认使用FileInputFomart类。二、（1）切片划分：将要处理的数据进行逻辑上的切片划分，每一个切片都对应一个mapTast任务。也就是说，将数据切成几片，就有几个mapTast任阅读全文

posted @ 2020-03-18 12:44 拔丝小红薯阅读(207) 评论(0) 推荐(0)

DataNode

摘要：一：DataNode工作机制（1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度、快数据的校验和（验证数据完整性）以及时间戳（2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有阅读全文

posted @ 2020-03-15 21:21 拔丝小红薯阅读(560) 评论(0) 推荐(0)

NameNode故障处理

摘要：NameNode发生故障后恢复数据的两种方法（都不能恢复全部数据）方法一：将SecondaryNameNode中的数据拷贝到NameNode存储数据的目录方法二：使用-importCheckpoint选项启动NameNode守护进程，从而将SecondaryNameNode中数据拷贝到NameN 阅读全文

posted @ 2020-03-15 20:28 拔丝小红薯阅读(181) 评论(0) 推荐(0)

Edits和FsImage

摘要：一：概念二：ovi命令查看FsImage文件三：oev查看Edits文件阅读全文

posted @ 2020-03-15 20:11 拔丝小红薯阅读(213) 评论(0) 推荐(0)

NN和2NN工作机制

摘要：一：NameNode的元数据怎么存储比较合适？假如存储在磁盘里，因为NameNode需要频繁的响应客户端请求进行读写，效率会比较低。假如存在内存里的话，一旦断电那么元数据就全部丢失了。因此有了FsImage，它是存在磁盘里的元数据备份文件。每当NameNode启动时，从FsImage里拿取元数阅读全文

posted @ 2020-03-15 20:01 拔丝小红薯阅读(802) 评论(0) 推荐(0)

机架感知（副本节点的选择）

摘要：HDFS副本节点默认三个第一个：存在Client（客户端）所处的节点，如果Client在集群外，那么随便选一个节点第二个：位于第一个副本所在的节点的机架，随机一个节点第三个：和第一副本处于不同机架上的随机一个节点阅读全文

posted @ 2020-03-14 17:42 拔丝小红薯阅读(201) 评论(0) 推荐(0)

HDFS的读写流程

摘要：HDFS的写入（上传）操作（1）客户端向NameNode发出上传文件请求（2）NameNode检查目标文件是否存在，父目录是否存在，然后响应客户端是否能上传（3）客户端根据规定的块大小拆分数据，然后向NameNode询问第一个block（数据块）上传到哪些DataNode上（4）NameNo 阅读全文

posted @ 2020-03-14 17:06 拔丝小红薯阅读(175) 评论(0) 推荐(0)

HDFS在客户端的操作

摘要：在java中使用FileSystem类可以操作HDFS HDFS在linux下操作的命令在java中转变为对应的方法。一些示例：（1）通过java在HDFS中创建文件夹（2）从本地剪切文件到HDFS （3）文件详情查看（4）文件或目录删除（5）从本地复制文件到HDFS （6）从HDFS下载阅读全文

posted @ 2020-03-14 15:33 拔丝小红薯阅读(105) 评论(0) 推荐(0)

HDFS在linux上的操作命令

摘要：一：基本语法 bin/hadoop fs + 命令 bin/hadoop dfs + 命令 fs和dfs执行的是同一个类，所以用谁都一样二：常用命令阅读全文

posted @ 2020-03-13 21:31 拔丝小红薯阅读(337) 评论(0) 推荐(0)

HDFS概述

摘要：一：HDFS是什么？ HDFS是分布式文件管理系统的一种，可以通过它管理多台机器上的文件。简单地说，它是一个文件系统，通过目录树来定位文件，其次，它是分布式的，它把数据存储在多台机器上，实现大量数据的存储。二：它的优点（1）高容错性：每台机器上的数据都有多个备份，正在使用的数据出问题，可以由备阅读全文

posted @ 2020-03-13 21:23 拔丝小红薯阅读(485) 评论(0) 推荐(0)

作业2

摘要：3.3.1 HDFS文件上传 3.3.2 HDFS文件下载 3.3.3 定位文件读取 4.1 HDFS写数据流程（1）客户端通过Distributed FileSystem模块向NamNode节点请求上传文件，NameNode检查目标文件是否存在，父目录是否存在（2）NamNode返回是否可以上阅读全文

posted @ 2020-03-13 20:15 拔丝小红薯阅读(147) 评论(0) 推荐(0)

大数据技术生态圈

摘要：阅读全文

posted @ 2020-03-10 10:57 拔丝小红薯阅读(125) 评论(0) 推荐(0)

MapReduce概述

摘要：一：MapReduce定义 MapReduce是一个分布式运算程序的编程框架，是用户开发"基于Hadoop的数据分析应用"的核心框架。它的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并运行在Hadoop集群上。二：MapReduce优缺点 1：优点（1）它易阅读全文

posted @ 2020-03-10 10:42 拔丝小红薯阅读(458) 评论(0) 推荐(0)

YARN

摘要：YARN负责管理调度各个节点上的内存。阅读全文

posted @ 2020-03-10 10:31 拔丝小红薯阅读(84) 评论(0) 推荐(0)

HDFS

摘要：HDFS负责将数据存储到各个节点，以及管理它们。阅读全文

posted @ 2020-03-10 10:22 拔丝小红薯阅读(99) 评论(0) 推荐(0)

Hadoop简述

摘要：一：什么是Hadoop？（1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构（2）主要解决海量数据的存储和计算问题（3）广义来讲，Hadoop指的是Hadoop生态圈二：Hadoop三大发行版本（1）Apache:最基础原始的版本，适合入门学习（2）Cloudera:在阅读全文

posted @ 2020-03-10 09:57 拔丝小红薯阅读(249) 评论(0) 推荐(0)

30作业

摘要：一：hadoop1.x和hadoop2.x区别答：Hadoop1.x由MapReduce（数据计算和资源调度）、HDFS（数据存储）、Common（辅助工具组成） Hadoop2.x中将MapReduce中的资源调度功能提取出来形成了一个新的模块，也就是Yarn。这样可以降低耦合度，MapRed 阅读全文

posted @ 2020-03-09 21:50 拔丝小红薯阅读(135) 评论(0) 推荐(0)

大数据概念

摘要：一：什么是大数据大数据本身指的是海量的数据数据存储单位：bit Byte KB MB GB TB PB EB ZB YB BB NB DB 工作所说的大数据是解决海量数据的存储和海量数据的分析计算的一种处理模式二：大数据特点 1：Volume（大量）当前，典型个人计算机硬盘的容量为TB级别，阅读全文

posted @ 2020-03-09 15:49 拔丝小红薯阅读(2928) 评论(0) 推荐(0)

Shell操作

摘要：一：Shell脚本文件的创建和使用 1：创建命令：touch 脚本名字,sh 例子：touch jb.sh 注意点：（1）Shell脚本的后缀是sh （2）脚本内第一行要加上一行代码：#!/bin/bash 意思是指定解析器 2：2种使用方法（1）bash [脚本路径] 参数1 参数2... （阅读全文

posted @ 2020-03-08 10:56 拔丝小红薯阅读(157) 评论(0) 推荐(0)

redis

摘要：一：nosql和sql的比较优点： 1）成本：nosql数据库简单易部署，基本都是开源软件，不需要像使用oracle那样花费大量成本购买使用，相比关系型数据库价格便宜。 2）查询速度：nosql数据库将数据存储于缓存(内存)之中，关系型数据库将数据存储在硬盘中，自然查询速度远不及nosql数据库。阅读全文

posted @ 2020-03-05 18:45 拔丝小红薯阅读(122) 评论(0) 推荐(0)

linux命令

摘要：一：文件目录类（1）pwd 显示当前工作目录的绝对路径（2）ll 显示当前路径的全部文件和目录（3）cd 切换路径（4）mkdir 创建一个目录（5）rmdir 删除一个空目录（6）touch 创建空文件（7）cp 复制文件或目录（8）rm 删除文件或目录（9）mv 移除文件或目录阅读全文

posted @ 2020-03-05 10:50 拔丝小红薯阅读(206) 评论(0) 推荐(0)

Vim操作

摘要：VI是Unix和类Unix系统中最通用的文本编辑器，而VIM是基于VI发展出来的更好的文本编辑器。它们的语法完全兼容。 VIM有三种不同的模式，每种模式都可以进行不同的操作。 1：一般模式：可以进行文本的复制、移动、删除等方法。 2：编辑模式：可以进行文本的编辑 3：指令模式：在这个模式可以进行文本阅读全文

posted @ 2020-03-04 20:34 拔丝小红薯阅读(132) 评论(0) 推荐(0)

linux目录结构

摘要：* /var：这个目录存放着不断扩充着的东西，我们习惯将那些经常被修改的目录放在这个目录下，包括各种日志文件。 * /opt 这是给主机额外安装软件所摆放的目录。比如你安装一个oracle数据库则可以放在这个目录下，默认是空的 * /usr/local：这是另一个给主机额外安装软件所摆放的目录。一般阅读全文

posted @ 2020-03-04 20:10 拔丝小红薯阅读(112) 评论(0) 推荐(0)

拔丝小红薯

03 2020 档案

公告