一字千金

2020年3月11日

摘要： 1.1 基准评测程序测试hadoop集群通过运行测试作业，用测试结果和资源检测结果来判断集群的性能，调整设置进行优化。最好在刚搭建好集群时测试。通过运行高强度的IO操作评测程序检测硬盘故障。 1.1.1 hadoop基准评测程序（1）测试IO读写 hadoop自带基准评测程序，在D:\hadoo 阅读全文

posted @ 2020-03-11 10:06 一字千金阅读(574) 评论(0) 推荐(0)

2020年3月1日

10.4 hadoop安全性kerberos安全验证和委托令牌

摘要： 1.1 安全性 HDFS的文件许可模块可以组织程序漏洞而毁坏文件系统，也能阻止运行hadoop fs –rmr删除文件指令，但是无法组织恶意的用户假冒root身份来访问或者删除数据。需要使用Kerberos实现用户认证。 1.1.1 Kerberos和Hadoop （1）客户端请求认证的步骤 1）阅读全文

posted @ 2020-03-01 22:57 一字千金阅读(820) 评论(0) 推荐(0)

10.3 hadoop地址配置、内存配置、守护进程设置、环境设置

摘要： 1.1 hadoop配置 hadoop配置文件在安装包的etc/hadoop目录下，但是为了方便升级，配置不被覆盖一般放在其他地方，并用环境变量HADOOP_CONF_DIR指定目录。 1.1.1 配置管理集群中每个节点都维护一套配置文件，并由管理员完成文件的同步工作。集群管理工具Cloudera 阅读全文

posted @ 2020-03-01 17:38 一字千金阅读(3163) 评论(0) 推荐(0)

2020年2月22日

reduce连接是怎么按组合键分组聚合功能原理详解

摘要： 1.reduce连接实现目标气象站数据集，气象站id和名称数据表 StationId StationName 1~hangzhou 2~shanghai 3~beijing 温度记录数据集 StationId TimeStamp Temperature 3~20200216~6 3~2020021 阅读全文

posted @ 2020-02-22 00:47 一字千金阅读(422) 评论(0) 推荐(0)

hadoop 自定义TextPair和使用原理

摘要： 1.hadoop TextPair组合键定义 package Temperature; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput 阅读全文

posted @ 2020-02-22 00:23 一字千金阅读(443) 评论(0) 推荐(0)

2020年2月21日

MultipleInputs FileSplit cannot be cast to TaggedInputSplit ClassCastException hadoop多路径格式输入异常

摘要： 1.问题描述使用hadoop 的reduce端排序，用MultipleInputs 输入两个文件夹下不同格式的文件，使用两个mapper解析，hadoop版本2.8.3. 3 hadoop 3.2.1也报同样的错误。 java.lang.Exception: java.lang.ClassCast 阅读全文

posted @ 2020-02-21 23:57 一字千金阅读(374) 评论(0) 推荐(0)

2020年2月19日

9.3.2 map端连接-CompositeInputFormat连接类

摘要： 1.1.1 map端连接-CompositeInputFormat连接类（1）使用CompositeInputFormat连接类需要满足三个条件： 1）两个数据集都是大的数据集，不能用缓存文件的方式。 2）数据集都是按照相同的键进行排序； 3）数据集有相同的分区数，同一个键的所有记录在同一个分区中阅读全文

posted @ 2020-02-19 00:22 一字千金阅读(527) 评论(0) 推荐(0)

2020年2月18日

java.lang.NullPointerException Ignoring exception during close for org.apache.hadoop.mapred.MapTask$NewOutputCollector@1398c56

摘要： 1.问题描述：在调试mapreduce辅助排序（二次排序）的过程中，运行程序总是报错 Ignoring exception during close for org.apache.hadoop.mapred.MapTask$NewOutputCollector@1398c56java.lang.Nu 阅读全文

posted @ 2020-02-18 23:33 一字千金阅读(805) 评论(0) 推荐(0)

2020年2月16日

9.2.3 hadoop reduce端连接-分区分组聚合

摘要： 1.1.1 reduce端连接-分区分组聚合 reduce端连接则是利用了reduce的分区功能将stationid相同的分到同一个分区，在利用reduce的分组聚合功能，将同一个stationid的气象站数据和温度记录数据分为一组，reduce函数读取分组后的第一个记录（就是气象站的名称）与其他记阅读全文

posted @ 2020-02-16 23:35 一字千金阅读(530) 评论(0) 推荐(0)

9.3.1 map端连接- DistributedCache分布式缓存小数据集

摘要： 1.1.1 map端连接- DistributedCache分布式缓存小数据集当一个数据集非常小时，可以将小数据集发送到每个节点，节点缓存到内存中，这个数据集称为边数据。用map函数将小数据集中的数据按键聚合到大的数据集中，输出连接数据集，进行连接操作。（1）分布式缓存指定缓存文件执行命令行阅读全文

posted @ 2020-02-16 23:31 一字千金阅读(385) 评论(0) 推荐(0)

公告