随笔分类 -  Hadoop

摘要:##### CDH集群之YARN性能调优 > 本文主要讨论CDH集群的YARN调优配置,关于YARN的调优配置,主要关注CPU和内存的调优,其中CPU是指物理CPU个数乘以CPU核数,即Vcores = CPU数量*CPU核数。YARN是以container容器的形式封装资源的,task在conta 阅读全文
posted @ 2023-08-17 19:22 a-tao必须奥利给 阅读(283) 评论(0) 推荐(0)
摘要:## 解决root用户对HDFS文件系统没有权限的问题 #### ==说明:==HDFS文件系统的目录基本都属于 supergroup 超级用户组,所以就把用户添加到该用户组,即可解决很多权限问题。 第一步: > 在Linux执行如下命令增加 supergroup 用户组 > > groupadd 阅读全文
posted @ 2023-07-12 09:38 a-tao必须奥利给 阅读(540) 评论(0) 推荐(0)
摘要:Hadoop优化 案例、天气预报 随机生成温度代码 package com.shujia.weather; import java.text.DateFormat; import java.text.ParseException; import java.text.SimpleDateFormat; 阅读全文
posted @ 2022-06-04 14:56 a-tao必须奥利给 阅读(53) 评论(0) 推荐(0)
摘要:MapReduce源码分析 快捷键 ctrl+alt+方向键:查看上一个或者下一个方法 ctrl+shift+alt+c: 拷贝方法的全名 com.shujia.airPM25.Pm25Avg#main ctrl+alt+b:查看当前接口的实现类 9.1 Split 带着问题看源码: 1、map的数 阅读全文
posted @ 2022-05-30 21:05 a-tao必须奥利给 阅读(55) 评论(0) 推荐(0)
摘要:Hadoop-yarn_工作流程详解 YARN的基本结构由一个ResourceManager与多个NodeManager组成。 ResourceManager负责对NodeManager所持有的资源进行统一管理和调度。当在处理一个作业时ResourceManager会在NodeManager所在节点 阅读全文
posted @ 2022-05-30 19:26 a-tao必须奥利给 阅读(125) 评论(0) 推荐(0)
摘要:MapReduce三个小案例 回顾一下 wordcount案例中map阶段 回顾一下 wordcount案例中的reduce阶段 1、IK分词器(统计三国演义指定词语个数) 步骤一:找到ik依赖,并添加到环境中 步骤二:在hadoop项目中创建子项目,并添加环境依赖 步骤三:小测试一下,结果如下: 阅读全文
posted @ 2022-05-28 16:34 a-tao必须奥利给 阅读(95) 评论(0) 推荐(0)
摘要:Hadoop 1.x 和 Hadoop 2.x 有什么区别? YARN Hadoop1.X 和 Hadoop2.X 之间的最大不同是 YARN 。 YARN 是“ Yet Another Resource Negotiator ”的缩写。 Hadoop1.X 仅仅是 HDFS 和 MapReduce 阅读全文
posted @ 2022-05-28 15:35 a-tao必须奥利给 阅读(169) 评论(0) 推荐(0)
摘要:一、MapReduce设计理念 map >映射 reduce >归纳 mapreduce必须构建在hdfs之上的一种大数据离线计算框架 ​ 在线:实时数据处理 ​ 离线:数据处理时效性没有在线那么强,但是相对也需要很快得到结果 mapreduce不会马上得到结果,他会有一定的延时(磁盘IO) ​ 如 阅读全文
posted @ 2022-05-27 08:18 a-tao必须奥利给 阅读(200) 评论(0) 推荐(0)
摘要:一、Hadoop-HA(高可用) 1.1 Hadoop1.x带来的问题 1、单点故障 ​ a. 每个群集只有一个NameNode,NameNode存在==单点故障(SPOF)==。 ​ b. 如果该计算机或进程不可用,则整个群集在整个NameNode重新启动或在另一台计算机上启 动之前将不可用 ​ 阅读全文
posted @ 2022-05-26 13:32 a-tao必须奥利给 阅读(75) 评论(0) 推荐(0)
摘要:Java操作Hadoop 步骤一:创建父类maven项目 在父类项目中的 pom 文件中配置如下,同一版本号,然后子类供给子类使用 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4 阅读全文
posted @ 2022-05-26 08:39 a-tao必须奥利给 阅读(70) 评论(0) 推荐(0)
摘要:2.2 Hadoop进程理解 HDFS HDFS相关(NN,DN,SSN) NameNode(NN) 映射关系: namenode获取到文件后,存文件的元数据信息 文件< >元数据(文件名称,大小时间权限) namenode和元数据的映射 生成上一步之后,nn对文件进行切分 namenode< >b 阅读全文
posted @ 2022-05-25 07:45 a-tao必须奥利给 阅读(142) 评论(0) 推荐(0)
摘要:Hadoop2.7.6学习 二、分布式文件系统 1、FS File System ​ 文件系统时极域硬盘之上的文件管理的工具 ​ 我们用户操作文件系统可以和硬盘进行解耦 2、DFS Distributed File System ​ 分布式文件系统 ​ 将我们的数据存放在多台电脑上存储 ​ 分布式文 阅读全文
posted @ 2022-05-24 18:57 a-tao必须奥利给 阅读(60) 评论(0) 推荐(0)
摘要:Hadoop2.7.6学习(一) Hadoop的发展史 Google ​ 爬取全球的网站,然后计算页面的PageRank ​ 要解决网站的问题: ​ a:这些网站怎么存放 ​ b:这些网站应该怎么计算 ​ 发布了三篇论文 ​ a:GFS(Google File System) ​ b:MapRedu 阅读全文
posted @ 2022-05-22 18:24 a-tao必须奥利给 阅读(53) 评论(0) 推荐(0)
摘要:hadoop文件切分思想 需求:统计文本文件中的各个班级的人数(一共多到数不清的人) 1500100129,容寄南,23,女,文科三班 1500100130,宁怀莲,21,女,理科四班 1500100131,胡昊明,22,男,文科六班 1500100132,曾安寒,22,女,文科五班 1500100 阅读全文
posted @ 2022-05-20 23:43 a-tao必须奥利给 阅读(85) 评论(0) 推荐(0)