大数据 - 文章分类 - 黎白昼

day57-hive

摘要：day57-hive hive 准备数据 dept 10 ACCOUNTING 1700 20 RESEARCH 1800 30 SALES 1900 40 OPERATIONS 1700 emp 7369 SMITH CLERK 7902 1980-12-17 800.00 20 7499 ALL 阅读全文

posted @ 2022-05-16 22:14 黎白昼阅读(19) 评论(0) 推荐(0)

day56-Hive

摘要：day56-Hive Hive Hive数据类型基本数据类型 Hive数据类型 Java数据类型 tinyint byte smalint short int int bigint long boolean boolean float float double double string stri 阅读全文

posted @ 2022-05-16 22:13 黎白昼阅读(33) 评论(0) 推荐(0)

day55-Hive

摘要：day55-Hive Hive 通过Hive去访问数据库直接通过hive命令就能够访问数据库退出使用quit; 打印当前库和表头修改配置文件hive-site.xml  <property> <name>hive.cli.print.current.db</name> 阅读全文

posted @ 2022-05-14 21:40 黎白昼阅读(31) 评论(0) 推荐(0)

day51-Hive

摘要：day51-Hive Hive Hive基本概念什么是Hive hive简介 Hive：由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。 Hive本质：将HQL转化成MapRed 阅读全文

posted @ 2022-05-09 21:32 黎白昼阅读(34) 评论(0) 推荐(0)

day49-hadoop-zookeeper

摘要：day49-hadoop-zookeeper hadoop-zookeeper zookeeper的配置参数的解读通信心跳数，Zookeeper服务器与客户端心跳时间，单位毫秒 tickTime=2000 LF初始通信时限 initLimit=10 LF同步通信时限：leader发送一个请求到fl 阅读全文

posted @ 2022-05-07 08:17 黎白昼阅读(62) 评论(0) 推荐(0)

day48-hadoop-zookeeper

摘要：day48-hadoop-zookeeper hadoop-zookeeper 概述 Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。 Zookeeper从设计模式角度来理解，是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受阅读全文

posted @ 2022-05-05 21:38 黎白昼阅读(142) 评论(0) 推荐(0)

day47-hadoop-yarn

摘要：day47-hadoop-yarn hadopp-yarn 容量调度器多队列提交案例需求 Yarn默认的容量调度器是一条单队列的调度器，在实际使用中会出现单个任务阻塞整个队列的情况。同时，随着业务的增长，公司需要分业务限制集群使用率。这就需要我们按照业务种类配置多条任务队列。具体配置 <prop 阅读全文

posted @ 2022-05-05 08:01 黎白昼阅读(36) 评论(0) 推荐(0)

day46-hadoop-yarn

摘要：day46-hadoop-yarn hadoop-yarn Yarn资源调度器 Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn基本架构 Yarn主要由ResourceMana 阅读全文

posted @ 2022-05-03 22:52 黎白昼阅读(28) 评论(0) 推荐(0)

day45-hadoop-mapreduce

摘要：day45-hadoop-mapreduce hadoop-mapreduce MR原码解读 Job的提交过程一. job.waitForCompletion(true); 1. submit(); 确认job的状态为DEFINE，进行job的提交 1.1 ensureState(JobState 阅读全文

posted @ 2022-05-02 22:22 黎白昼阅读(30) 评论(0) 推荐(0)

day44-hadoop-mapreduce

摘要：day44-hadoop-mapreduce hadoop-mapreduce Reduce Join reduce端合并的数据倾斜问题处理的数据集大小不均，一部分大，一部分小交给某个reduce的数据太大，导致无法解决 Map Join 使用场景 Map Join适用于一张表十分小、一张表很大阅读全文

posted @ 2022-05-01 23:20 黎白昼阅读(26) 评论(0) 推荐(0)

day43-hadoop-mapreduce

摘要：day43-hadoop-mapreduce hadoop-mapreduce Join多种应用 Reduce Join 目录 Reduce Join工作原理 Map端的主要工作：为来自不同表和文件的key/value对，打标签以后区别不同来源的记录。然后用链接字段作为key，其余部分和新加的标志作阅读全文

posted @ 2022-05-01 23:16 黎白昼阅读(22) 评论(0) 推荐(0)

day41-hadoop-mapreduce

摘要：day41-hadoop-mapreduce hadoop-mapreduce hadoop排序 hadoop比较使用的类和接口 WritableComparable: 支持序列化和比较的接口 WritableComparator: 比较器 hadoop如何实现排序比较自定义排序WritableC 阅读全文

posted @ 2022-04-28 22:04 黎白昼阅读(26) 评论(0) 推荐(0)

day40-hadoop-mapreduce

摘要：day40-hadoop-mapreduce hadoop-mapreduce MapReduce框架原理 MapReduce的流程粗略过程：数据输入 -> map处理 -> shuffle -> reduce处理 -> 数据的输出 InputFormat数据输入切片与MapTask并行度决定机阅读全文

posted @ 2022-04-27 22:21 黎白昼阅读(30) 评论(0) 推荐(0)

day38-hadoop-s-hdfs

摘要：day38-hadoop-s-hdfs hadoop-hdfs hadoop3.x 新特性纠删码（擦除编码）机制 HDFS为擦除编码(EC)提供了支持，以更有效地存储数据。与默认三个副本机制相比，EC策略可以节省约50%左右的存储空间。但不可忽略的是编解码的运算会消耗CPU资源。纠删吗的编解码性阅读全文

posted @ 2022-04-25 23:50 黎白昼阅读(75) 评论(0) 推荐(0)

day37-s-hadoop-hdfs

摘要：day37-s-hadoop-hdfs hadoop-hdfs NameNode工作机制 1 第一阶段：NameNode启动 1) 第一次启动NameNode格式化，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。 2) 客户端对元数据进行增删改查的请求 3 阅读全文

posted @ 2022-04-24 23:12 黎白昼阅读(42) 评论(0) 推荐(0)

day36-s-hadoop-hdfs

摘要：day36-s-hadoop-hdfs hadoop-hdfs 练习：输出文件和目录 package com.liuchao.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; impor 阅读全文

posted @ 2022-04-24 09:00 黎白昼阅读(22) 评论(0) 推荐(0)

day35-s-hadoop

摘要：day35-s-hadoop hadoop-hdfs HDFS客户端下载hadoop的包配置环境变量创建Maven项目添加依赖pom.xml <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <versi 阅读全文

posted @ 2022-04-22 22:47 黎白昼阅读(25) 评论(0) 推荐(0)

day34-s-hadoop-hdfs

摘要：day34-s-hadoop-hdfs hadoop-hdfs 由多台机器联合组成的文件系统 HDFS概述 HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理阅读全文

posted @ 2022-04-22 09:32 黎白昼阅读(26) 评论(0) 推荐(0)

day33-s-hadoop

摘要：day33-s-hadoop hadoop 集群测试上传小文件创建目录 hadoop fs -mkdir -p /input/a/b 上传文件:把本地的文件上传到hadoop集群中 hadoop fs -put README.txt /input 对于linux来说 input目录是一个虚拟的，阅读全文

posted @ 2022-04-20 22:52 黎白昼阅读(106) 评论(0) 推荐(0)

day32-s-hadoop

摘要：day32-s-hadoop hadoop 启动hadoop集群 hadoop提供的启动hdfs、yarn的脚本 hdfs-start.sh 启动namenode datanode secondarynode yarn-start.sh 启动resourcemanager nodemanager 问阅读全文

posted @ 2022-04-19 22:06 黎白昼阅读(61) 评论(0) 推荐(0)

黎白昼

文章分类 - 大数据

公告