摘要: 函数式编程 // scala语言是函数式编程语言,所以,万物皆函数,所以方法其实就是函数 // def 函数名(参数1:参数类型1, 参数2:参数类型2):函数返回值类型 = {函数体} def test1(): Unit = { println("test function...") } 函数与方 阅读全文
posted @ 2022-09-15 18:32 POCOPOCOPOCO 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 变量与数据类型 变量声明 // var | val 变量名 :变量类型 = 变量值 // 用户名称 var username : String = "zhangsan" //可变变量 :值可以改变的变量 // 用户密码 val userpswd : String = "000000" //不可变变量 阅读全文
posted @ 2022-09-15 18:30 POCOPOCOPOCO 阅读(44) 评论(0) 推荐(0) 编辑
摘要: Zookeeper入门 概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookee 阅读全文
posted @ 2022-07-26 16:52 POCOPOCOPOCO 阅读(40) 评论(0) 推荐(0) 编辑
摘要: shell概述 shell是一个命令行解释器,它接收应用程序/用户命令,然后调用系统内核。 shell还是一个功能相当强大的编程语言,易编写,易调用,灵活性强。 Linux提供的Shell解析器 cat /etc/shells /bin/sh /bin/bash /sbin/nologin /bin 阅读全文
posted @ 2022-07-26 16:46 POCOPOCOPOCO 阅读(15) 评论(0) 推荐(0) 编辑
摘要: Linux目录结构 /bin 是Binary的缩写,这个目录存放着最经常使用的命令 /sbin s是Super User的意思,这里存放的是系统管理员使用的系统管理程序 /home 存放普通用户的主目录,在Linux中每个用户都有一个自己的目录。 /root 该目录为系统管理员,也称作超级权限者的用 阅读全文
posted @ 2022-07-26 16:45 POCOPOCOPOCO 阅读(64) 评论(0) 推荐(0) 编辑
摘要: Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Contai 阅读全文
posted @ 2022-07-26 16:44 POCOPOCOPOCO 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序 MapReduce优缺点 优点 MapReduce 易于编程 良好的扩展性 高容错性 适合PB级以上海量数据的离线处理 缺点 不擅长实时计算 不擅长流式计算 不擅长DAG(有向无环图)计算(多个应用程序存在依赖关系,后一个应用程序 阅读全文
posted @ 2022-07-26 16:42 POCOPOCOPOCO 阅读(103) 评论(0) 推荐(0) 编辑
摘要: HDFS的使用场景 适合一次写入,多次读出的场景,且不支持文件的修改。 HDFS优点和缺点 优点 高容错性 适合处理大数据 可构建在廉价机器上,并通过多副本机制提高可靠性 缺点 不适合低延时数据访问 无法高效的对大量小文件进行存储(小文件的寻址时间会超过读取时间,违反HDF的设计目标) 不支持并发写 阅读全文
posted @ 2022-07-26 16:37 POCOPOCOPOCO 阅读(75) 评论(0) 推荐(0) 编辑
摘要: Hadoop2.x新特性 scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push scp -r root@hadoop103:/user/atguigu/hello.txt hello. 阅读全文
posted @ 2022-07-26 16:32 POCOPOCOPOCO 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 压缩概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络宽带和磁盘空间的效率。在运行MR程序时,I/O操作,网络数据传输,Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘I/O和网络宽带是Hadoo 阅读全文
posted @ 2022-07-26 16:32 POCOPOCOPOCO 阅读(44) 评论(0) 推荐(0) 编辑