会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
一字千金
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
21
22
23
24
25
26
27
28
29
···
39
下一页
2020年3月1日
10.3 hadoop地址配置、内存配置、守护进程设置、环境设置
摘要: 1.1 hadoop配置 hadoop配置文件在安装包的etc/hadoop目录下,但是为了方便升级,配置不被覆盖一般放在其他地方,并用环境变量HADOOP_CONF_DIR指定目录。 1.1.1 配置管理 集群中每个节点都维护一套配置文件,并由管理员完成文件的同步工作。集群管理工具Cloudera
阅读全文
posted @ 2020-03-01 17:38 一字千金
阅读(3150)
评论(0)
推荐(0)
2020年2月22日
reduce连接是怎么按组合键分组聚合功能原理详解
摘要: 1.reduce连接实现目标 气象站数据集,气象站id和名称数据表 StationId StationName 1~hangzhou 2~shanghai 3~beijing 温度记录数据集 StationId TimeStamp Temperature 3~20200216~6 3~2020021
阅读全文
posted @ 2020-02-22 00:47 一字千金
阅读(421)
评论(0)
推荐(0)
hadoop 自定义TextPair和使用原理
摘要: 1.hadoop TextPair组合键定义 package Temperature; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput
阅读全文
posted @ 2020-02-22 00:23 一字千金
阅读(443)
评论(0)
推荐(0)
2020年2月21日
MultipleInputs FileSplit cannot be cast to TaggedInputSplit ClassCastException hadoop多路径格式输入异常
摘要: 1.问题描述 使用hadoop 的reduce端排序,用MultipleInputs 输入两个文件夹下不同格式的文件,使用两个mapper解析,hadoop版本2.8.3. 3 hadoop 3.2.1也报同样的错误。 java.lang.Exception: java.lang.ClassCast
阅读全文
posted @ 2020-02-21 23:57 一字千金
阅读(371)
评论(0)
推荐(0)
2020年2月19日
9.3.2 map端连接-CompositeInputFormat连接类
摘要: 1.1.1 map端连接-CompositeInputFormat连接类 (1)使用CompositeInputFormat连接类需要满足三个条件: 1)两个数据集都是大的数据集,不能用缓存文件的方式。 2)数据集都是按照相同的键进行排序; 3)数据集有相同的分区数,同一个键的所有记录在同一个分区中
阅读全文
posted @ 2020-02-19 00:22 一字千金
阅读(521)
评论(0)
推荐(0)
2020年2月18日
java.lang.NullPointerException Ignoring exception during close for org.apache.hadoop.mapred.MapTask$NewOutputCollector@1398c56
摘要: 1.问题描述:在调试mapreduce辅助排序(二次排序)的过程中,运行程序总是报错 Ignoring exception during close for org.apache.hadoop.mapred.MapTask$NewOutputCollector@1398c56java.lang.Nu
阅读全文
posted @ 2020-02-18 23:33 一字千金
阅读(803)
评论(0)
推荐(0)
2020年2月16日
9.2.3 hadoop reduce端连接-分区分组聚合
摘要: 1.1.1 reduce端连接-分区分组聚合 reduce端连接则是利用了reduce的分区功能将stationid相同的分到同一个分区,在利用reduce的分组聚合功能,将同一个stationid的气象站数据和温度记录数据分为一组,reduce函数读取分组后的第一个记录(就是气象站的名称)与其他记
阅读全文
posted @ 2020-02-16 23:35 一字千金
阅读(529)
评论(0)
推荐(0)
9.3.1 map端连接- DistributedCache分布式缓存小数据集
摘要: 1.1.1 map端连接- DistributedCache分布式缓存小数据集 当一个数据集非常小时,可以将小数据集发送到每个节点,节点缓存到内存中,这个数据集称为边数据。用map函数将小数据集中的数据按键聚合到大的数据集中,输出连接数据集,进行连接操作。 (1) 分布式缓存指定缓存文件 执行命令行
阅读全文
posted @ 2020-02-16 23:31 一字千金
阅读(382)
评论(0)
推荐(0)
2020年2月15日
9.2.2 hadoop采样分组源码解析SplitSampler、RandomSampler、IntervalSampler
摘要: 采样分组 为了实现输出的全局排序,可以对温度数据进行分组处理,实现多个reduce处理,组间有序,组内有序,从而实现全局有序。而如何分组才能保证每个reduce分到的数据差不多,这样作业中的任务执行时间也差不多。例如将处理温度数据,要求温度按顺序输出。分成4组个分组,<-10℃,-10℃~0℃, 0
阅读全文
posted @ 2020-02-15 23:45 一字千金
阅读(458)
评论(0)
推荐(0)
9.2.1 hadoop mapreduce任务输出的默认排序
摘要: 任务的默认排序 MapTask和ReduceTask都会默认对数据按照key进行排序,不管逻辑上是否需要。默认是按照字典顺序排序,且实现该排序的方法是快速排序。但是map和reduce任务只能保证单个任务内部输出有序,不能保证所有输出全局有序。 MapTask,当环形缓冲区使用率到达一定阈值后进行一
阅读全文
posted @ 2020-02-15 23:42 一字千金
阅读(859)
评论(0)
推荐(0)
上一页
1
···
21
22
23
24
25
26
27
28
29
···
39
下一页
公告