随笔分类 -  Hadoop

摘要:前言 将Hive的默认引擎Map Reduce改为Tez后,经常出现TezSession has already shutdown错误; 错误内容 问题原因 ​ 该错误是YARN的虚拟内存计算方式导致,上例中用户程序申请的内存为1Gb,YARN根据此值乘以一个比例(默认为2.1)得出申请的虚拟内存的 阅读全文
posted @ 2020-05-13 09:36 ShadowFiend 阅读(2979) 评论(1) 推荐(1)
摘要:错误内容 解决方式 修改tez的配置文件 修改 tez default template.xml 中的 tez.client.asynchronous stop 为 false ; 修改完毕后,同时记得在hdfs集群的/tez下重新上传该配置文件。 之后重启集群,再进行测试; 阅读全文
posted @ 2020-05-12 18:40 ShadowFiend 阅读(6236) 评论(2) 推荐(0)
摘要:概述 倒排索引 (英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分 阅读全文
posted @ 2019-11-22 10:25 ShadowFiend 阅读(330) 评论(0) 推荐(0)
摘要:需求 ​ 背景:学校的学生的是一个非常大的生成数据的集体,比如每次考试的成绩 ​ 现有一个班级的学生一个月的考试成绩数据。 ​ 科目 姓名 分数 ​ 需求:求出每门成绩中属于甲级的学生人数和总人数 ​ 乙级的学生人数和总人数 ​ 丙级的学生人数和总人数 ​ 甲级(90及以上)乙级(80到89)丙级( 阅读全文
posted @ 2019-11-22 10:24 ShadowFiend 阅读(1216) 评论(0) 推荐(0)
摘要:HA概述 1. 所谓HA(high available),即高可用(7 24小时不中断服务)。 2. 实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 3. Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF) 阅读全文
posted @ 2019-10-28 10:38 ShadowFiend 阅读(345) 评论(0) 推荐(0)
摘要:MapReduce和自定义Partition MobileDriver主类 JobUtils工具类 Map自定义类 Reduce自定义类 Partition自定义分区类 阅读全文
posted @ 2019-08-28 21:55 ShadowFiend 阅读(247) 评论(0) 推荐(0)
摘要:概述 ​ 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着巨大的I/ 阅读全文
posted @ 2019-08-26 22:05 ShadowFiend 阅读(1497) 评论(0) 推荐(1)
摘要:搭建Hadoop本地模式 本地模式就是单机装hadoop。 安装hadoop 上传hadoop包 通过winSCP上传hadoop包到/opt/soft/文件夹下 解压hadoop 解压hadoop到/opt/module/下 设置hadoop环境变量 末尾添加如下配置,保存退出: 刷新配置文件 查 阅读全文
posted @ 2019-08-10 17:44 ShadowFiend 阅读(651) 评论(0) 推荐(0)