大数据开发之路 - 随笔分类 - JasonPeng1

MapReduce

摘要：MapReduce程序开发 1、Demo：WordCount单词计数分析WordCount程序数据处理的过程（非常重要）2、开发自己的WordCount程序开发一个MapReduce：求每个部门的工资总额3、MapReduce的一些高级特性（1）序列化：类似Java的序列化（2）排序：默认排阅读全文

posted @ 2020-03-24 17:22 JasonPeng1

HDFS的集群简介

摘要：HDFS的集群集群的两大功能：负载均衡，高可用(失败迁移)（1）NameNode联盟（Federation） > HDFS（2）HA: HDFS、Yarn、HBase、Storm、Spark > 都需要ZooKeeper 阅读全文

posted @ 2020-03-23 14:57 JasonPeng1

HDFS的配额

摘要：1.名称配额 (*)Hadoop分布式文件系统( HDFS )允许管理员为使用的名字（name）数量和用于各个目录的空间设置配额。名字配额和空间配额独立运行，但两种类型配额的管理和实施密切平行。名称配额是对以该目录为根的树中文件和目录名称数量的硬限制。如果超过配额，创建文件和目录将会失败。配额与重阅读全文

posted @ 2020-03-23 14:46 JasonPeng1

HDFS的安全模式和权限

摘要：HDFS的安全模式 (*)安全模式是hadoop的一种保护机制，用于保证集群中的数据块的安全性。如果 HDFS 处于安全模式，则表示 HDFS 是只读状态。 (*)当集群启动的时候，会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数（即参数 dfs.replicat 阅读全文

posted @ 2020-03-23 14:31 JasonPeng1

HDFS的快照

摘要：快照快照snapshots是HDFS文件系统的只读的基于某时间点的拷贝，可以针对某个目录，或者整个文件系统做快照。快照比较常见的应用场景是数据备份，以防一些用户错误或灾难恢复。（*）默认：HDFS的快照是禁用的（*）第一步：管理员开启某个目录的快照功能[-allowSnapshot <snaps 阅读全文

posted @ 2020-03-23 10:08 JasonPeng1

HDFS的回收站

摘要：回收站（*）默认，HDFS的回收站是关闭（*）启用回收站：参数 > core-site.xml添加fs.trash.interval来配置时间阀值，例如：（*）删除文件时，其实是放入回收站/trash（*）回收站里的文件可以快速恢复hdfs dfs -cp /user/root/.Trash/Cu 阅读全文

posted @ 2020-03-23 09:37 JasonPeng1

HDFS上传/下载数据的过程和原理

摘要：上传过程下载过程阅读全文

posted @ 2020-03-23 08:49 JasonPeng1

使用JavaAPI获取文件信息

摘要：package demo; import java.io.FileOutputStream; import java.io.InputStream; import java.io.OutputStream; import java.util.Arrays; import org.apache.had 阅读全文

posted @ 2020-03-22 18:37 JasonPeng1

使用JavaAPI上传下载数据

摘要：使用JavaAPI上传下载数据 1.新建一个java文件，将示例代码写入其中。2.运行Test。3.在hdfs中查看是否上传成功：hdfs dfs -ls /folder14.下载操作类似文件上传/下载的两种方法：法1：利用java.io流操作法2：利用hadoop.io.IOUtils流操作阅读全文

posted @ 2020-03-22 17:29 JasonPeng1

使用JavaAPI创建目录和HDFS的权限问题

摘要：package demo; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.junit. 阅读全文

posted @ 2020-03-21 20:51 JasonPeng1

通过命令行操作HDFS

摘要：6-3 通过命令行操作HDFS 命令行（1）普通操作命令： hdfs dfs ****** 命令 -mkdir：在HDFS上创建目录 hdfs dfs -mkdir /aaa hdfs dfs -mkdir /bbb/ccc 如果父目录不存在，使用-p参数先创建父目录 -ls 查看HDFS的某个目阅读全文

posted @ 2020-03-21 20:14 JasonPeng1

通过WebConsole操作HDFS

摘要：通过WebConsole操作HDFS Web Console：端口50070在浏览器访问：192.168.0.11:50070 需要注意的地方： Overview中的 Datanode（由于是为分布模式，所以只有一个DataNode） Startup Progress 启动HDFS的过程阅读全文

posted @ 2020-03-21 19:58 JasonPeng1

并行计算和MapReduce

摘要：2019-12-01 21:17:38 参考：https://www.iteye.com/blog/xuyuanshuaaa-1172511 现在MapReduce/Hadoop以及相关的数据处理技术非常热，因此我想在这里将MapReduce的优势汇总一下，将MapReduce与传统基于HPC集群的阅读全文

posted @ 2019-12-01 21:18 JasonPeng1

Hadoop——第六章 : 分布式文件系统HDFS

摘要：6-1HDFS课程概述 HDFS Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器阅读全文

posted @ 2019-12-01 13:07 JasonPeng1

Hadoop——主从结构的单点故障问题及解决方案

摘要：2019-12-01 12:46:00 阅读全文

posted @ 2019-12-01 12:46 JasonPeng1

Hadoop——HBase的体系结构简介

摘要：2019-12-01 12:23:06 HBase HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据阅读全文

posted @ 2019-12-01 12:25 JasonPeng1

大数据学习路线

摘要：2019-12-01 00:23:08 来源：https://dblab.xmu.edu.cn/post/bigdataroadmap/ https://www.icourse163.org/learn/XMU-1002335004?tid=1206559203#/learn/custom?id=1 阅读全文

posted @ 2019-12-01 00:24 JasonPeng1

Hadoop——Yarn的体系结构和任务的调度

摘要：2019-11-28 Yarn的体系结构 Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管阅读全文

posted @ 2019-11-28 23:25 JasonPeng1

Hadoop—— SecondaryNameNode的职责

摘要：第二名称节点：SecondaryNameNode NameNode主要是用来保存HDFS的元数据信息，比如命名空间信息，块信息等。当它运行的时候，这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上。在NameNode重启时，edit logs才会合并到fsimage文件中，从而得到一个文件系阅读全文

posted @ 2019-11-28 00:16 JasonPeng1

Hadoop——NameNode的职责

摘要：2019-11-27 5-3 DataNode的职责从节点：DataNode （*）按数据块保存数据：1.x：64M 2.x：128M （*）数据块在操作系统的位置： find. -name blk* /root/training/hadoop-2.7.3/tmp/dfs/data/current 阅读全文

posted @ 2019-11-27 23:42 JasonPeng1

JasonPeng1

随笔分类 - 大数据开发之路

公告