Hadoop - 随笔分类 - Transkai

Hadoop大数据集群（三台）资源下载

摘要：我们在学习大数据时避免不了地是要花大量的时间去搭建大数据环境，配置各种另人眼花缭乱的配置文件各种大数据组件：hdfs、yarn、hive、zookeeper、flume、azkaban、saprk、Phoenix、hbase、sqoop、MongoDB、elasticsearch.....等等等等阅读全文

posted @ 2021-12-10 21:49 Transkai 阅读(221) 评论(0) 推荐(0)

MapReduce案例：统计共同好友+订单表多表合并+求每个订单中最贵的商品

摘要：案例三：统计共同好友任务需求：如下的文本， A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H, 阅读全文

posted @ 2019-04-12 17:14 Transkai 阅读(948) 评论(0) 推荐(0)

Hadoop 目录分析及存储机制

摘要：NameNode元数据目录分析在第一次部署好Hadoop集群的时候，我们需要在NameNode（NN）节点上格式化磁盘： $HADOOP_HOME/bin/hdfs namenode -format 格式化完成之后，将会在$dfs.namenode.name.dir/current目录下如下的文件阅读全文

posted @ 2019-04-12 12:07 Transkai 阅读(395) 评论(0) 推荐(0)

Hadoop yarn工作流程详解

摘要：yarn是什么？1、它是一个资源调度及提供作业运行的系统环境平台资源：cpu、mem等作业：map task、reduce Task yarn产生背景？它是从hadoop2.x版本才引入1、hadoop1.x版本它是如何资源调度及作业运行机制原理a、JobTracker（主节点）（a）：接受客阅读全文

posted @ 2019-03-18 00:59 Transkai 阅读(4085) 评论(0) 推荐(1)

Hadoop Mapreduce 工作机制

摘要：一.Mapreduce 中的Combiner 在job类中声明如下：二.MapTask工作机制主要的核心类：读： FileInputFormat TextInputFormat createRecordReader LineRecordReader nextKeyValue 写： contex 阅读全文

posted @ 2019-03-10 23:59 Transkai 阅读(433) 评论(0) 推荐(0)

Hadoop Mapreduce 案例 wordcount+统计手机流量使用情况

摘要：mapreduce设计思想概念：它是一个分布式并行计算的应用框架它提供相应简单的api模型，我们只需按照这些模型规则编写程序，即可实现"分布式并行计算"的功能。案例一：wordcount经典案例先写map方法以下为reduce方法最后是主类双击package,可以生成mapreducew 阅读全文

posted @ 2019-03-05 00:22 Transkai 阅读(1037) 评论(0) 推荐(0)

Hadoop HDFS NameNode工作机制

摘要：Secondary namenode 首先，我们假设如果存储在Namenode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断点，元数据丢失，整个集群就无法工作了！！！因此必须在磁盘中有备份，在磁盘中的备份就是fsIm 阅读全文

posted @ 2019-03-04 22:01 Transkai 阅读(352) 评论(0) 推荐(0)

Hadoop HDFS元数据目录分析

摘要：元数据目录分析在第一次部署好Hadoop集群的时候，我们需要在NameNode（NN）节点上格式化磁盘： $HADOOP_HOME/bin/hdfs namenode -format 格式化完成之后，将会在$dfs.namenode.name.dir/current目录下如下的文件结构其中的df 阅读全文

posted @ 2019-03-04 00:24 Transkai 阅读(583) 评论(0) 推荐(0)

Hadoop HDFS DataNode 目录结构

摘要：DataNode 目录结构和namenode不同的是，datanode的存储目录是初始阶段自动创建的，不需要额外格式化。 1、在/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current这个目录下查看版本号 [victor@hadoop102 curre 阅读全文

posted @ 2019-03-04 00:16 Transkai 阅读(1027) 评论(0) 推荐(0)

Hadoop HDFS 文件块大小

摘要：HDFS 文件块大小 HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M HDFS的块比磁盘的块大，其目的是为了最小化寻址开销。如果块设置得足够大，从磁盘传输数据的时间会明显阅读全文

posted @ 2019-03-04 00:14 Transkai 阅读(863) 评论(0) 推荐(0)

Hadoop HDFS的shell(命令行客户端)操作实例

摘要：HDFS的shell(命令行客户端)操作实例 3.2 常用命令参数介绍 -help 功能：输出这个命令参数手册 -ls 功能：显示目录信息示例： hadoop fs -ls hdfs://hadoop-server01:9000/ 备注：这些参数中，所有的hdfs路径都可以简写 -->hadoop 阅读全文

posted @ 2019-03-04 00:11 Transkai 阅读(354) 评论(0) 推荐(0)

Hadoop JAVA HDFS客户端操作

摘要：JAVA HDFS客户端操作通过API操作HDFS org.apache.logging.log4jlog4j-core2.8.2org.apache.hadoophadoop-common${hadoop.version}org.apache.hadoophadoop-hdfs${hadoop. 阅读全文

posted @ 2019-03-04 00:07 Transkai 阅读(387) 评论(0) 推荐(0)

Hadoop 历史服务配置启动查看

摘要：历史服务配置启动查看 1）配置mapred-site.xml <property> <name>mapreduce.jobhistory.address</name> <value>hadoop-001:10020</value> </property> <property> <name>mapre 阅读全文

posted @ 2019-02-26 23:11 Transkai 阅读(1194) 评论(0) 推荐(0)

Hadoop YARN上运行MapReduce程序

摘要：（1）配置集群（a）配置hadoop-2.7.2/etc/hadoop/yarn-env.sh 配置一下JAVA_HOME export JAVA_HOME=/home/hadoop/bigdatasoftware/jdk1.8.0_161 （b）配置yarn-site.xml <!-- redu 阅读全文

posted @ 2019-02-26 23:07 Transkai 阅读(189) 评论(0) 推荐(0)

Hadoop 完全分布式部署

摘要：完全分布式部署Hadoop 分析： 1）准备3台客户机（关闭防火墙、静态ip、主机名称） 2）安装jdk 3）配置环境变量 4）安装hadoop 5）配置环境变量 6）安装ssh 7）集群时间同步 7）配置集群 8）启动测试集群准备三台装有Centos系统的虚拟机，可以参考https://www. 阅读全文

posted @ 2019-02-26 14:29 Transkai 阅读(219) 评论(0) 推荐(0)

Transkai

随笔分类 - Hadoop

公告