Hadoop - 随笔分类 - a-tao必须奥利给

CDH集群之YARN性能调优

摘要：##### CDH集群之YARN性能调优 > 本文主要讨论CDH集群的YARN调优配置，关于YARN的调优配置，主要关注CPU和内存的调优，其中CPU是指物理CPU个数乘以CPU核数，即Vcores = CPU数量*CPU核数。YARN是以container容器的形式封装资源的，task在conta 阅读全文

posted @ 2023-08-17 19:22 a-tao必须奥利给阅读(297) 评论(0) 推荐(0)

解决root用户对HDFS文件系统没有权限的问题

摘要：## 解决root用户对HDFS文件系统没有权限的问题 #### ==说明：==HDFS文件系统的目录基本都属于 supergroup 超级用户组，所以就把用户添加到该用户组，即可解决很多权限问题。第一步： > 在Linux执行如下命令增加 supergroup 用户组 > > groupadd 阅读全文

posted @ 2023-07-12 09:38 a-tao必须奥利给阅读(580) 评论(0) 推荐(0)

Hadoop-day09_hadoop优化

摘要：Hadoop优化案例、天气预报随机生成温度代码 package com.shujia.weather; import java.text.DateFormat; import java.text.ParseException; import java.text.SimpleDateFormat; 阅读全文

posted @ 2022-06-04 14:56 a-tao必须奥利给阅读(64) 评论(0) 推荐(0)

Hadoop-day08_MapReduce源码分析

摘要：MapReduce源码分析快捷键 ctrl+alt+方向键：查看上一个或者下一个方法 ctrl+shift+alt+c: 拷贝方法的全名 com.shujia.airPM25.Pm25Avg#main ctrl+alt+b：查看当前接口的实现类 9.1 Split 带着问题看源码： 1、map的数阅读全文

posted @ 2022-05-30 21:05 a-tao必须奥利给阅读(63) 评论(0) 推荐(0)

Hadoop-day08_yarn_工作流程详解

摘要：Hadoop-yarn_工作流程详解 YARN的基本结构由一个ResourceManager与多个NodeManager组成。 ResourceManager负责对NodeManager所持有的资源进行统一管理和调度。当在处理一个作业时ResourceManager会在NodeManager所在节点阅读全文

posted @ 2022-05-30 19:26 a-tao必须奥利给阅读(142) 评论(0) 推荐(0)

Hadoop-day07(MapReduce三个小案例)

摘要：MapReduce三个小案例回顾一下 wordcount案例中map阶段回顾一下 wordcount案例中的reduce阶段 1、IK分词器(统计三国演义指定词语个数) 步骤一：找到ik依赖,并添加到环境中步骤二：在hadoop项目中创建子项目，并添加环境依赖步骤三：小测试一下，结果如下：阅读全文

posted @ 2022-05-28 16:34 a-tao必须奥利给阅读(105) 评论(0) 推荐(0)

Hadoop-day07(hadoop 1.x 和 hadoop 2.x 有什么区别？)

摘要：Hadoop 1.x 和 Hadoop 2.x 有什么区别？ YARN Hadoop1.X 和 Hadoop2.X 之间的最大不同是 YARN 。 YARN 是“ Yet Another Resource Negotiator ”的缩写。 Hadoop1.X 仅仅是 HDFS 和 MapReduce 阅读全文

posted @ 2022-05-28 15:35 a-tao必须奥利给阅读(181) 评论(0) 推荐(0)

Hadoop-day06(MapReduce设计理念)

摘要：一、MapReduce设计理念 map >映射 reduce >归纳 mapreduce必须构建在hdfs之上的一种大数据离线计算框架在线：实时数据处理离线：数据处理时效性没有在线那么强，但是相对也需要很快得到结果 mapreduce不会马上得到结果，他会有一定的延时（磁盘IO）如阅读全文

posted @ 2022-05-27 08:18 a-tao必须奥利给阅读(209) 评论(0) 推荐(0)

Hadoop-day5(HA_高可用)

摘要：一、Hadoop-HA（高可用） 1.1 Hadoop1.x带来的问题 1、单点故障 a. 每个群集只有一个NameNode，NameNode存在==单点故障（SPOF）==。 b. 如果该计算机或进程不可用，则整个群集在整个NameNode重新启动或在另一台计算机上启动之前将不可用阅读全文

posted @ 2022-05-26 13:32 a-tao必须奥利给阅读(86) 评论(0) 推荐(0)

Hadoop-day05(java操作hadoop)

摘要：Java操作Hadoop 步骤一：创建父类maven项目在父类项目中的 pom 文件中配置如下，同一版本号，然后子类供给子类使用 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4 阅读全文

posted @ 2022-05-26 08:39 a-tao必须奥利给阅读(75) 评论(0) 推荐(0)

Hadoop-day04_(HDFS的进程理解）

摘要：2.2 Hadoop进程理解 HDFS HDFS相关（NN,DN,SSN） NameNode(NN) 映射关系： namenode获取到文件后，存文件的元数据信息文件< >元数据（文件名称，大小时间权限） namenode和元数据的映射生成上一步之后，nn对文件进行切分 namenode< >b 阅读全文

posted @ 2022-05-25 07:45 a-tao必须奥利给阅读(156) 评论(0) 推荐(0)

Hadoop-day03(part2_后一半集群搭建及基础命令)

摘要：Hadoop2.7.6学习二、分布式文件系统 1、FS File System 文件系统时极域硬盘之上的文件管理的工具我们用户操作文件系统可以和硬盘进行解耦 2、DFS Distributed File System 分布式文件系统将我们的数据存放在多台电脑上存储分布式文阅读全文

posted @ 2022-05-24 18:57 a-tao必须奥利给阅读(69) 评论(0) 推荐(0)

Hadoop-day02(part_1前一半内容基本思想)

摘要：Hadoop2.7.6学习（一） Hadoop的发展史 Google 爬取全球的网站，然后计算页面的PageRank 要解决网站的问题： a：这些网站怎么存放 b：这些网站应该怎么计算发布了三篇论文 a：GFS(Google File System) b：MapRedu 阅读全文

posted @ 2022-05-22 18:24 a-tao必须奥利给阅读(66) 评论(0) 推荐(0)

Hadoop-day01_(java代码模拟hadoop存储数据)

摘要：hadoop文件切分思想需求：统计文本文件中的各个班级的人数（一共多到数不清的人） 1500100129,容寄南,23,女,文科三班 1500100130,宁怀莲,21,女,理科四班 1500100131,胡昊明,22,男,文科六班 1500100132,曾安寒,22,女,文科五班 1500100 阅读全文

posted @ 2022-05-20 23:43 a-tao必须奥利给阅读(93) 评论(0) 推荐(0)

atao-BigData

人生如逆旅，你我亦行人。

随笔分类 - Hadoop

公告