随笔分类 -  大数据开发之路

摘要:MapReduce程序开发 1、Demo:WordCount单词计数 分析WordCount程序数据处理的过程(非常重要)2、开发自己的WordCount程序 开发一个MapReduce:求每个部门的工资总额3、MapReduce的一些高级特性 (1)序列化:类似Java的序列化 (2)排序:默认排 阅读全文
posted @ 2020-03-24 17:22 JasonPeng1
摘要:HDFS的集群 集群的两大功能:负载均衡,高可用(失败迁移)(1)NameNode联盟(Federation) > HDFS(2)HA: HDFS、Yarn、HBase、Storm、Spark > 都需要ZooKeeper 阅读全文
posted @ 2020-03-23 14:57 JasonPeng1
摘要:1.名称配额 (*)Hadoop分布式文件系统( HDFS )允许管理员为使用的名字(name)数量和用于各个目录的空间设置配额。名字配额和空间配额独立运行,但两种类型配额的管理和实施密切平行。 名称配额是对以该目录为根的树中文件和目录名称数量的硬限制。如果超过配额,创建文件和目录将会失败。配额与重 阅读全文
posted @ 2020-03-23 14:46 JasonPeng1
摘要:HDFS的安全模式 (*)安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。如果 HDFS 处于安全模式,则表示 HDFS 是只读状态。 (*)当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据 块的完整性。假设我们设置的副本数(即参数 dfs.replicat 阅读全文
posted @ 2020-03-23 14:31 JasonPeng1
摘要:快照 快照snapshots是HDFS文件系统的只读的基于某时间点的拷贝,可以针对某个目录,或者整个文件系统做快照。快照比较常见的应用场景是数据备份,以防一些用户错误或灾难恢复。 (*)默认:HDFS的快照是禁用的(*)第一步:管理员开启某个目录的快照功能[-allowSnapshot <snaps 阅读全文
posted @ 2020-03-23 10:08 JasonPeng1
摘要:回收站 (*)默认,HDFS的回收站是关闭(*)启用回收站:参数 > core-site.xml添加fs.trash.interval来配置时间阀值,例如:(*)删除文件时,其实是放入回收站/trash(*)回收站里的文件可以快速恢复hdfs dfs -cp /user/root/.Trash/Cu 阅读全文
posted @ 2020-03-23 09:37 JasonPeng1
摘要:上传过程 下载过程 阅读全文
posted @ 2020-03-23 08:49 JasonPeng1
摘要:package demo; import java.io.FileOutputStream; import java.io.InputStream; import java.io.OutputStream; import java.util.Arrays; import org.apache.had 阅读全文
posted @ 2020-03-22 18:37 JasonPeng1
摘要:使用JavaAPI上传下载数据 1.新建一个java文件,将示例代码写入其中。2.运行Test。3.在hdfs中查看是否上传成功:hdfs dfs -ls /folder14.下载操作类似 文件上传/下载的两种方法: 法1:利用java.io流操作 法2:利用hadoop.io.IOUtils流操作 阅读全文
posted @ 2020-03-22 17:29 JasonPeng1
摘要:package demo; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.junit. 阅读全文
posted @ 2020-03-21 20:51 JasonPeng1
摘要:6-3 通过命令行操作HDFS 命令行 (1)普通操作命令: hdfs dfs ****** 命令 -mkdir:在HDFS上创建目录 hdfs dfs -mkdir /aaa hdfs dfs -mkdir /bbb/ccc 如果父目录不存在,使用-p参数先创建父目录 -ls 查看HDFS的某个目 阅读全文
posted @ 2020-03-21 20:14 JasonPeng1
摘要:通过WebConsole操作HDFS Web Console:端口50070在浏览器访问:192.168.0.11:50070 需要注意的地方: Overview中的 Datanode(由于是为分布模式,所以只有一个DataNode) Startup Progress 启动HDFS的过程 阅读全文
posted @ 2020-03-21 19:58 JasonPeng1
摘要:2019-12-01 21:17:38 参考:https://www.iteye.com/blog/xuyuanshuaaa-1172511 现在MapReduce/Hadoop以及相关的数据处理技术非常热,因此我想在这里将MapReduce的优势汇总一下,将MapReduce与传统基于HPC集群的 阅读全文
posted @ 2019-12-01 21:18 JasonPeng1
摘要:6-1HDFS课程概述 HDFS Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器 阅读全文
posted @ 2019-12-01 13:07 JasonPeng1
摘要:2019-12-01 12:23:06 HBase HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据 阅读全文
posted @ 2019-12-01 12:25 JasonPeng1
摘要:2019-12-01 00:23:08 来源:https://dblab.xmu.edu.cn/post/bigdataroadmap/ https://www.icourse163.org/learn/XMU-1002335004?tid=1206559203#/learn/custom?id=1 阅读全文
posted @ 2019-12-01 00:24 JasonPeng1
摘要:2019-11-28 Yarn的体系结构 Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管 阅读全文
posted @ 2019-11-28 23:25 JasonPeng1
摘要:第二名称节点:SecondaryNameNode NameNode主要是用来保存HDFS的元数据信息,比如命名空间信息,块信息等。当它运行的时候,这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上。 在NameNode重启时,edit logs才会合并到fsimage文件中,从而得到一个文件系 阅读全文
posted @ 2019-11-28 00:16 JasonPeng1
摘要:2019-11-27 5-3 DataNode的职责 从节点:DataNode (*)按数据块保存数据:1.x:64M 2.x:128M (*)数据块在操作系统的位置: find. -name blk* /root/training/hadoop-2.7.3/tmp/dfs/data/current 阅读全文
posted @ 2019-11-27 23:42 JasonPeng1