文章分类 - 大数据
从小白到入土的大数据持续学习、持续更新
摘要:day57-hive hive 准备数据 dept 10 ACCOUNTING 1700 20 RESEARCH 1800 30 SALES 1900 40 OPERATIONS 1700 emp 7369 SMITH CLERK 7902 1980-12-17 800.00 20 7499 ALL
阅读全文
摘要:day56-Hive Hive Hive数据类型 基本数据类型 Hive数据类型 Java数据类型 tinyint byte smalint short int int bigint long boolean boolean float float double double string stri
阅读全文
摘要:day55-Hive Hive 通过Hive去访问数据库 直接通过hive命令就能够访问数据库 退出使用quit; 打印当前库和表头 修改配置文件hive-site.xml <!--打印当前的库--> <property> <name>hive.cli.print.current.db</name>
阅读全文
摘要:day51-Hive Hive Hive基本概念 什么是Hive hive简介 Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 Hive本质:将HQL转化成MapRed
阅读全文
摘要:day49-hadoop-zookeeper hadoop-zookeeper zookeeper的配置参数的解读 通信心跳数,Zookeeper服务器与客户端心跳时间,单位毫秒 tickTime=2000 LF初始通信时限 initLimit=10 LF同步通信时限:leader发送一个请求到fl
阅读全文
摘要:day48-hadoop-zookeeper hadoop-zookeeper 概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受
阅读全文
摘要:day47-hadoop-yarn hadopp-yarn 容量调度器多队列提交案例 需求 Yarn默认的容量调度器是一条单队列的调度器,在实际使用中会出现单个任务阻塞整个队列的情况。同时,随着业务的增长,公司需要分业务限制集群使用率。这就需要我们按照业务种类配置多条任务队列。 具体配置 <prop
阅读全文
摘要:day46-hadoop-yarn hadoop-yarn Yarn资源调度器 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn基本架构 Yarn主要由ResourceMana
阅读全文
摘要:day45-hadoop-mapreduce hadoop-mapreduce MR原码解读 Job的提交过程 一. job.waitForCompletion(true); 1. submit(); 确认job的状态为DEFINE,进行job的提交 1.1 ensureState(JobState
阅读全文
摘要:day44-hadoop-mapreduce hadoop-mapreduce Reduce Join reduce端合并的数据倾斜问题 处理的数据集大小不均,一部分大,一部分小 交给某个reduce的数据太大,导致无法解决 Map Join 使用场景 Map Join适用于一张表十分小、一张表很大
阅读全文
摘要:day43-hadoop-mapreduce hadoop-mapreduce Join多种应用 Reduce Join 目录 Reduce Join工作原理 Map端的主要工作:为来自不同表和文件的key/value对,打标签以后区别不同来源的记录。然后用链接字段作为key,其余部分和新加的标志作
阅读全文
摘要:day41-hadoop-mapreduce hadoop-mapreduce hadoop排序 hadoop比较使用的类和接口 WritableComparable: 支持序列化和比较的接口 WritableComparator: 比较器 hadoop如何实现排序比较 自定义排序WritableC
阅读全文
摘要:day40-hadoop-mapreduce hadoop-mapreduce MapReduce框架原理 MapReduce的流程 粗略过程:数据输入 -> map处理 -> shuffle -> reduce处理 -> 数据的输出 InputFormat数据输入 切片与MapTask并行度决定机
阅读全文
摘要:day38-hadoop-s-hdfs hadoop-hdfs hadoop3.x 新特性 纠删码(擦除编码)机制 HDFS为擦除编码(EC)提供了支持,以更有效地存储数据。与默认三个副本机制相比,EC策略可以节省约50%左右的存储空间。 但不可忽略的是编解码的运算会消耗CPU资源。纠删吗的编解码性
阅读全文
摘要:day37-s-hadoop-hdfs hadoop-hdfs NameNode工作机制 1 第一阶段:NameNode启动 1) 第一次启动NameNode格式化,创建Fsimage和Edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 2) 客户端对元数据进行增删改查的请求 3
阅读全文
摘要:day36-s-hadoop-hdfs hadoop-hdfs 练习:输出文件和目录 package com.liuchao.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; impor
阅读全文
摘要:day35-s-hadoop hadoop-hdfs HDFS客户端 下载hadoop的包 配置环境变量 创建Maven项目 添加依赖pom.xml <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <versi
阅读全文
摘要:day34-s-hadoop-hdfs hadoop-hdfs 由多台机器联合组成的文件系统 HDFS概述 HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理
阅读全文
摘要:day33-s-hadoop hadoop 集群测试 上传小文件 创建目录 hadoop fs -mkdir -p /input/a/b 上传文件:把本地的文件上传到hadoop集群中 hadoop fs -put README.txt /input 对于linux来说 input目录是一个虚拟的,
阅读全文
摘要:day32-s-hadoop hadoop 启动hadoop集群 hadoop提供的启动hdfs、yarn的脚本 hdfs-start.sh 启动namenode datanode secondarynode yarn-start.sh 启动resourcemanager nodemanager 问
阅读全文

浙公网安备 33010602011771号