Hadoop - 随笔分类(第2页) - 市丸银

FileInputFormat实现类

摘要：一、TextInputFormat 1、TextInputFormat是默认的FileInputFormat的实现类。2、按行读取每条记录。3、键：存储该行在整个文件中起始字节偏移量，LongwWritable类型4、值：这行的内容，不包含任何行终止符(换行符和回车符)，Text类型注意：键的值：阅读全文

posted @ 2020-09-03 22:40 市丸银阅读(250) 评论(0) 推荐(0)

CombineTextInputFormat 案例

摘要：一、核心代码(依托于自定义的WordCount) 1、位置在设置输入和输出路径前 2、代码 // 设置 job.setInputFormatClass(CombineTextInputFormat.class); CombineTextInputFormat.setMaxInputSplitSiz 阅读全文

posted @ 2020-09-03 22:10 市丸银阅读(540) 评论(0) 推荐(0)

FileInputFormat 和 CombineTextInputFormat 切片机制

摘要：一、FileInputFormat切片机制 1、简单的按照文件长度进行切片 2、切片大小，默认值为BlockSize 3、切片时不考虑整体数据，而是逐个针对单一文件切片二、CombineTextInputFormat切片机制 A、产生原因：处理大量单独的小文件，每个小文件都会产生一个MapTas 阅读全文

posted @ 2020-09-03 21:36 市丸银阅读(362) 评论(0) 推荐(0)

MapTask 并行度决定机制

摘要：1、区分数据块：物理数据切片：逻辑 2、决定机制 1、一个Job的Map阶段并行度(数量)由客户端提交Job时的切片数量决定2、一个切片对应一个MapTask3、默认情况下，切片大小==BlockSize(128M)4、切片时不考虑数据集整体性，而是针对每个文件单独切片总结：MapTask的数阅读全文

posted @ 2020-09-03 17:09 市丸银阅读(357) 评论(0) 推荐(0)

Hadoop 流量案例

摘要：一、需求统计每一个手机号耗费的总上行流量、下行流量、总流量二、分析 1、输入内容 1 13736230513 192.196.100.1 www.atguigu.com 2481 24681 200 2 13846544121 192.196.100.2 264 0 200 3 13956435 阅读全文

posted @ 2020-09-03 14:44 市丸银阅读(233) 评论(0) 推荐(0)

Hadoop 序列化

摘要：一、优点 1、紧凑：节省内存 2、快速：读取速度快 3、可扩展：随着协议升级 4、互操作：支持多语言交互二、Bean对象实现序列化 1、步骤 a、必须实现Writable接口 b、必须有空参构造，反序列化时，反射调用 c、重写序列化方法 d、重写反序列化方法 e、序列化方法和反序列化方法参数顺序要阅读全文

posted @ 2020-09-03 08:00 市丸银阅读(237) 评论(0) 推荐(0)

Java 和 Hadoop的数据类型

摘要：Java类型 Hadoop Writable类型 boolean BooleanWritable byte ByteWritable int IntWritable float FloatWritable long LongWritable double DoubleWritable String 阅读全文

posted @ 2020-09-03 07:08 市丸银阅读(310) 评论(0) 推荐(0)

MapReduce WordCount实操

摘要：一、前提 1、创建Maven项目 2、导入依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependency> < 阅读全文

posted @ 2020-09-02 22:21 市丸银阅读(218) 评论(0) 推荐(0)

Intellij 配置运行参数

摘要：1、右击鼠标--选中Edit '类.main()' 2、添加参数--apply--ok 阅读全文

posted @ 2020-09-02 22:20 市丸银阅读(458) 评论(0) 推荐(0)

MapReduce 基础

摘要：一、概述 1、概念是一个分布式运算程序的编程框架 2、核心功能业务逻辑代码和自带默认组件二、MapReduce的优缺点 1、优点易于编程、良好的扩展性、高容错性、适合PB级以上海量数据的离线处理 2、缺点不擅长实时计算、不擅长流式计算、不擅长依赖关系的计算三、核心思想 1、MapRedu 阅读全文

posted @ 2020-09-02 17:24 市丸银阅读(155) 评论(0) 推荐(0)

HDFS 快照(了解)

摘要：含义：快照不会复制所有文件，而是记录文件变化 # 1.开启指定目录的快照功能 hdfs dfsadmin -allowSnapshot 路径 # 2.对目录创建快照 hdfs dfs -createSnapshot 路径 # 3.指定名称创建快照 hdfs dfs -createSnapshot 路阅读全文

posted @ 2020-09-02 16:30 市丸银阅读(373) 评论(0) 推荐(0)

HDFS 回收站(了解)

摘要：注意：HDFS很少删除数据 1、打开文件 vim etc/hadoop/core-site.xml 2、编辑文件 # 1 代表1分钟 <property> <name>fs.trash.interval</name> <value>1</value> </property> # 修改回收站访问用户阅读全文

posted @ 2020-09-02 13:26 市丸银阅读(358) 评论(0) 推荐(0)

HDFS 数据拷贝

摘要：1、scp 一个集群内传递数据 scp -r a.txt tom@wt3:/ # 推 scp -r tom@wt2:/abc.txt /tmp # 拉 scp -r tom@wt1:/a.txt tom@wt3:/tmp 2、 distcp 两个集群传递数据 bin/hadoop distcp 阅读全文

posted @ 2020-09-02 09:19 市丸银阅读(193) 评论(0) 推荐(0)

HDFS 小文件存档(重要)

摘要：1、原因：小文件不适合储存在Hadoop中，因为都会占用NameNode内存的元数据(相当于目录)，无论小文件的大小都会占用一个DataNode块(128M) 2、解决方案 HDFS存档文件或HAR文件，对内是一个一个独立的文件，对NameNode是一个整体，减少NameNode的内存 3、实操阅读全文

posted @ 2020-09-01 23:55 市丸银阅读(263) 评论(0) 推荐(0)

HDFS DataNode 多目录

摘要：一、过程 1、修改配置文件 vim etc/hadoop/hdfs-site.xml <property> <name>dfs.datanode.data.dir</name> <value>file:///${hadoop.tmp.dir}/dfs/data1,file:///${hadoop.t 阅读全文

posted @ 2020-09-01 23:42 市丸银阅读(340) 评论(0) 推荐(0)

HDFS DataNode 退役旧节点

摘要：一、白名单 1、在NameNode节点，创建dfs.hosts，并添加白名单主机名 cd /opt/module/hadoop-2.7.7/etc/hadoop/ vim dfs.hosts# 内容wt1wt2wt3 2、在NameNode的hdfs-site.xml配置文件中增加dfs.hosts 阅读全文

posted @ 2020-09-01 23:09 市丸银阅读(327) 评论(0) 推荐(0)

HDFS DateNoda 服役新节点

摘要：1、克隆机器克隆 wt3 获取 wt5 2、修改ip和hostname 3、添加hosts 所有节点(可以用scp) 4、删除 data/ 和 logs/ 5、source一下配置文件(简单) source /etc/profile 6、配置ssh 目的：wt3 和 wt5 无密登录a、wt3和w 阅读全文

posted @ 2020-09-01 22:25 市丸银阅读(130) 评论(0) 推荐(0)

HDFS DataNode 时限参数设置

摘要：1、打开文件（具体路径，懂得都懂，不懂的看前面） vim hdfs-site.xml 2、修改配置文件 <property> <name>dfs.namenode.heartbeat.recheck-interval</name> <value>300000</value> </property> 阅读全文

posted @ 2020-09-01 17:37 市丸银阅读(262) 评论(0) 推荐(0)

HDFS NameNode 多目录

摘要：一、目的每个目录下的数据完全相同，增强可靠性二、配置 1、停止集群 sbin/stop-yarn.sh sbin/stop-dfs.sh 2、删除所有节点的文件 rm -rf data/ logs/ 3、配置hdfs-site.xml文件 <property> <name>dfs.namenod 阅读全文

posted @ 2020-09-01 12:33 市丸银阅读(224) 评论(0) 推荐(0)

HDFS 安全模式

摘要：一、基础在安全模式下，不能对节点进行写操作二、命令 hdfs dfsadmin -safemode get # 查看安全模式的状态 hdfs dfsadmin -safemode enter # 进入安全模式 hdfs dfsadmin -safemode leave # 脱离安全模式 hdfs 阅读全文

posted @ 2020-09-01 11:37 市丸银阅读(321) 评论(0) 推荐(0)

市丸银

知行合一

随笔分类 - Hadoop

公告