随笔分类 - Hadoop
摘要:优化 Map阶段 增大环形缓冲区大小。由100m扩大到200m 增大环形缓冲区溢写的比例。由80%扩大到90% 减少对溢写文件的merge次数。(10个文件,一次20个merge) 不影响实际业务的前提下,采用Combiner提前合并,减少 I/O。 Reduce阶段 合理设置Map和Reduce数
阅读全文
摘要:MR执行过程-map阶段 map任务处理 框架使用InputFormat类的子类把输入文件(夹)划分为很多InputSplit,默认,每个HDFS的block对应一个InputSplit。通过RecordReader类,把每个InputSplit解析成一个个<k1,v1>。默认,框架对每个 Inpu
阅读全文
摘要:上传hadoop安装包 上传到msater的/usr/local/soft/ hadoop-2.7.6.tar.gz 解压 tar -xvf hadoop-2.7.6.tar.gz 配置环境变量 vim /etc/profile 增加hadoop环境变量,将bin和sbin都配置到PATh中 exp
阅读全文
摘要:安装前提,需要三台虚拟机并关闭防火墙,配置静态IP,配置免密登陆,JDK的安装,这些操作可以看我Linux分类中的文章,不做过多说明。 我使用的hadoop 版本是hadoop 3.1.3 下面开始安装步骤 首先将安装包传输到目录下,并解压 tar -zxvf hadoop-3.1.3.tar.gz
阅读全文

浙公网安备 33010602011771号