06 2018 档案
摘要:Mapper类源码解析 1.来自[org.apache.hadoop.mapreduce.Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>] 2.java Doc说明: Map将输入数据<k,v>转换成中间数据集<k,v> map将为输入的数据的每一个记录(行)执行m
阅读全文
摘要:BlockLocation代码跟踪 1.client-->[DistributedFileSystem.class]fs.getFileBlockLocations -->[DistributedFileSystem.class]fs.getFileBlockLocations(重载) -->[DF
阅读全文
摘要:hadoop 1.组成:common,hdfs,mapreduce,yarn 2.hadoop集群搭建:3种【搭建流程】 3.hdfs shell命令 4.hdfs体系结构:主从节点{namenode,datanode,secondarynamenode}都是守护进程而非节点:【官网结构图】 fsi
阅读全文
摘要:1.{hadoop.tmp.dir}:/tmp/hadoop-{user.name} 修改路径到当前用户目录下: /home/lyxy/tmp/hadoop 注意:格式化的含义-->创建dfs/name/fsimage和edits文件,针对namenode守护进程的。 开启namenode守护进程失
阅读全文
摘要:线程池:java语言为我们提供了一个管理线程的类型ExecutorService。 概念:创建多个线程,集合到一起就是线程池。 作用:自动创建线程,重用线程。 当创建大量的线程时,在线程结束后会有内存开销,线程的频繁切换也会造成大量的开销,很容易系统崩溃,所以设计了线程池。 线程池对象为我们提供了固
阅读全文
摘要:String对象是字符串常量,不可变的,底层是用final修饰的,public final class String。 我们经常做的字符串+运算,这样是一种不可取的做法,因为String的对象是常量。 比如String s = "123",s=s+"45",它不是在原来的s上做的操作,而是又重新创建
阅读全文
摘要:一: HDFS:hadoop分布式文件系统 两种表现形式:(1)hadoop fs shell命令-->hadoop fs -command (2)java API方式访问-->DistributedFileSystem对应的HDFS 二:搭建IDE a.查找hadoop的依赖包,在{hadoop_
阅读全文
摘要:1:appendToFile追加文件至目标文件末尾。 $>hadoop fs -appendToFile text111.txt /spaceQuota/text.txt 2:getmerge合并文件 $>hadoop fs -getmerge -nl /spaceQuota textmerge.t
阅读全文
摘要:1:什么是线程 线程是app中的一个任务(顺序执行流) 进程是操作系统的一个任务,开辟了一个独立的内存空间,一个app占用一个进程,一个app中有一个或多个线程。这些线程可以共享这块内存空间的资源。 2:并发 在计算机中,围观上,多个线程不是同时进行的,而是断断续续的(cpu把时间段分成无数多个小的
阅读全文
摘要:1.-report:返回集群的状态信息 $>hdfs dfsadmin -report 2.-metasave:默认存放到{hadoop.log.dir}路径下,包含datanode和块的信息 $>hdfs dfsadmin -metasave metasave.tt $>cd {hadoop.lo
阅读全文
摘要:1:开启安全模式(安全模式在开启集群的时候是开启的,开启之后会关闭) $>hdfs dfsadmin -safemode enter // 进入安全模式 $>hdfs dfsadmin -safemode leave // 离开安全模式 $>hdfs dfsadmin -safemode get /
阅读全文
摘要:一:hdfs设计原理 负载均衡,考虑分布式计算 -->block机制 二:block默认大小为128m,【hadoop2.0版本以上】,之前都是64m。 最小块大小为1m,每512个字节做一次checksum。 原因:默认传输效率10M/s 寻址时间占传输时间的1% 寻址时间为10ms 总结:blo
阅读全文
摘要:1:namenode[守护进程]作用: -->管理文件系统名称空间;【fsimage元数据镜像文件】 -->管理客户端对文件的访问;【edits操作文件】 -->Namenode执行文件系统命名空间操作,如打开,关闭,重命名文件和目录【edits操作文件】 -->确定block到Datanode的映
阅读全文
摘要:IO流 流的作用:进行数据传输的作用。 按照读写单位的大小分类:字节流和字符流 字节流的父类: 输出流:OutputStream 输入流:InputStream 输出流有个特点,制定的文件不存在,会自动创建此文件。 1:文件输出输入字节流 FileInputStream FileOutputStre
阅读全文
摘要:1:按照读写的单位大小来分 字节流 字符流 2:按照读写时是否直接与硬盘,内存等节点连接分类 节点流:会直接与某节点关联的流。 处理流:不与硬盘,内存等设备直接关联的流类型,处理流一般都会以节点流为参数。 3:按照处理效率分类 低级流 高级流 输入(input):把外界(硬盘)的数据写入到程序中。
阅读全文
摘要:一:作用 对文件系统上的文件或目录进行查看操作等。只能创建,删除文件(目录)或者查看属性,但是不能修改文件的内容。 二:构造器 File(String pathname):参数pathname是一个路径,此构造器的相对位置是在项目名这个文件夹下。 File(String parentpath,Str
阅读全文