随笔分类 -  BigData

RDD认知
摘要:1.RDD又叫弹性分布式数据集 2.抽象 3.带泛型,支持多种数据类型 4.集合是可以进行分区 例如(1,2,3,4,5,6,7,8,9)这个数组是可以进行分区的(1,2,3) (4,5,6) (7,8,9)可以并行计算(这就是分布式计算) RDD5大特性 1.一个RDD有一系列的分区 2.对RDD 阅读全文

posted @ 2018-08-25 21:52 JETIME庚 阅读(185) 评论(0) 推荐(0)

YARN 的深入简出
摘要:1.YARN的产生背景 2.YARN的执行流程 3.YARN的概述 4.YARN的环境搭建 5.YARN的架构 6.如何提交作业到YaRN上执行 YARN的产生MapReduce1.x存在多种问题单节点故障&节点压力大&不支持除了MapReduce之外的计算框架 MapReduce:Master/S 阅读全文

posted @ 2018-07-22 10:34 JETIME庚 阅读(186) 评论(0) 推荐(0)

IDEA 创建HDFS项目 JAVA api
摘要:1.创建quickMaven 1.在properties中写hadoop 的版本号并且通过EL表达式的方式映射到dependency中 2.写一个repostory将依赖加载到本地仓库中 这是加载完成的页面 这是开发代码 阅读全文

posted @ 2018-07-21 21:29 JETIME庚 阅读(2506) 评论(0) 推荐(0)

解决 HDFS 开发 java.lang.IllegalArgumentException: java.net.UnknownHostException: hadoop000
摘要:出现这种问题多半是windows找不到linux主机所以在 这个路径下的hosts加上linux ip地址,主机名就可以了 阅读全文

posted @ 2018-07-21 16:50 JETIME庚 阅读(7640) 评论(0) 推荐(2)

hadoop深入简出(二)
摘要:1.上传文件 Hadoop fs -put hello.txt / 2.查看上传的文件 hadoop fs -ls / hadoop fs -text /hello.txt 两个命令都可以 3.创建文件夹 hadoop fs -mkdir /test 4.递归展示文件夹 hadoop fs -lsr 阅读全文

posted @ 2018-07-21 15:30 JETIME庚 阅读(134) 评论(0) 推荐(0)

大数据hadoop的伪分布式搭建
摘要:1.配置环境变量JDK配置 1.JDK安装 个人喜欢在 vi ~/.bash profile 下配置 export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91export PATH=$JAVA_HOME/bin:$PATH 当然要让环境变量生效source ~/.b 阅读全文

posted @ 2018-07-19 21:28 JETIME庚 阅读(255) 评论(1) 推荐(0)

HDFS之深入简出(一)
摘要:分布式文件系统HDFS 一:概述 1.HDFS设计目标 2.HDFS核心组件 3.HDFS副本机制 4.HDFS环境搭建 5.HDFS shell命令 java api 6.HDFS读写流程 7.HDFS优缺点 二: 思考:如何创建一个分布式文件系统 重点:文件以多副本的方式进行存储 缺点:文件不管 阅读全文

posted @ 2018-07-15 17:52 JETIME庚 阅读(336) 评论(0) 推荐(0)

Hadoop特点
摘要:一:HDFS 1.HDFS上传数据,会将文件切分成指定大小的数据块,并以多副本的数据块存储在机器上. 2. part0是指 副本有2个而且1,2有两个副本 二.YARN 1.负责整个集群的管理和调度 YARN的特点 扩展性,容错性,多框架资源统一调度,支持多种不同的框架同时运行 三.mapReduc 阅读全文

posted @ 2018-07-15 15:44 JETIME庚 阅读(2600) 评论(0) 推荐(0)

Wordcount
摘要:package com.ibifeng.hadoop.senior.mapreduce;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;im 阅读全文

posted @ 2018-03-17 13:06 JETIME庚 阅读(145) 评论(0) 推荐(0)

导航