摘要:linux的两种硬盘类型,一种IDE,一种SCSI 一块硬盘最多有四个主分区(扩展分区算一个分区),即主分区和扩展分区总数不超过4, 扩展分区上有逻辑分区,总数不超过12 linux的分区命名,xxyN xx:硬盘类型,hd为IDE,sd为SCSI yy:表示第几块硬盘(a,b,c...) N:表示 阅读全文
posted @ 2019-08-17 16:58 月亮一直在呢 阅读 (37) 评论 (0) 编辑
摘要:RDD(弹性分布式数据集,里面并不存储真正要计算的数据,你对RDD的操作,他会在Driver端转换成Task,下发到Executor计算分散在多台集群上的数据) RDD是一个代理,你对代理进行操作,他会生成Task,帮你计算你操作这个代理,就像操作本地集合一样,不用关心任务调度,容错等 RDD的属性 阅读全文
posted @ 2019-08-10 13:52 月亮一直在呢 阅读 (26) 评论 (0) 编辑
摘要:spark和mapreduce差不多,都是一种计算引擎,spark相对于MapReduce来说,他的区别是,MapReduce会把计算结果放 在磁盘,spark把计算结果既放在磁盘中有放在内存中,mapreduce把可能会把一个大任务分成多个stage,瓶颈发生在IO,spark有一个叫DAG(有向 阅读全文
posted @ 2019-08-09 14:32 月亮一直在呢 阅读 (32) 评论 (0) 编辑
摘要:学习scala的原因主要是因为以后要学习spark。 scala是运行在java虚拟机上的,它是一种面向对象和函数式编程结合的语言,并兼容java程序 相对于java更简单 安装scala前提你要保证你已经安装好了jdk 然后 下载这个msi版本的,下载完直接下一步下一步傻瓜安装 然后下载个IDEA 阅读全文
posted @ 2019-08-08 13:50 月亮一直在呢 阅读 (21) 评论 (0) 编辑
摘要:Hive的用处,就是把hdfs里的文件建立映射转化成数据库的表 但hive里的sql语句都是转化成了mapruduce来对hdfs里的数据进行处理 ,并不是真正的在数据库里进行了操作。 而那些表的定义则是储存在了mysql数据库中,他只是记录相应表的定义 所以你的集群中要有一台机器装了mysql 装 阅读全文
posted @ 2019-08-07 09:46 月亮一直在呢 阅读 (36) 评论 (0) 编辑
摘要:zookeeper是干嘛的呢 Zookeeper的作用1.可以为客户端管理少量的数据kvkey:是以路径的形式表示的,那就意味着,各key之间有父子关系,比如/ 是顶层key用户建的key只能在/ 下作为子节点,比如建一个key: /aa 这个key可以带value数据也可以建一个key: /bb也 阅读全文
posted @ 2019-08-06 16:15 月亮一直在呢 阅读 (29) 评论 (0) 编辑
摘要:使用HABSE之前,要先安装一个zookeeper 我以前写的有https://www.cnblogs.com/wpbing/p/11309761.html 先简单介绍一下HBASE HBASE是一个数据库 可以提供数据的实时随机读写 他是一个nosql数据库,并不是结构化的,他只能粗略的进行一些查 阅读全文
posted @ 2019-07-27 10:48 月亮一直在呢 阅读 (27) 评论 (0) 编辑
摘要:关于mapreduce的一些注意细节 如果把mapreduce程序打包放到了liux下去运行, 命令java –cp xxx.jar 主类名 如果报错了,说明是缺少相关的依赖jar包 用命令hadoop jar xxx.jar 类名因为在集群机器上用 hadoop jar xx.jar mr.wc. 阅读全文
posted @ 2019-07-25 10:55 月亮一直在呢 阅读 (44) 评论 (0) 编辑
摘要:mapreduce是一个运算框架,让多台机器进行并行进行运算, 他把所有的计算都分为两个阶段,一个是map阶段,一个是reduce阶段 map阶段:读取hdfs中的文件,分给多个机器上的maptask,分文件的时候是按照文件的大小分的 比如每个maptask都会处理128M的文件大小,然后有个500 阅读全文
posted @ 2019-07-24 15:48 月亮一直在呢 阅读 (38) 评论 (0) 编辑
摘要:首先要在windows下解压一个windows版本的hadoop 然后在配置他的环境变量,同时要把hadoop的share目录下的hadoop下的相关jar包拷贝到esclipe 然后Build Path 下面上代码 练习:从一个文件里面不断地采集日志上传到hdfs里面 1.流程介绍 启动一个定时任 阅读全文
posted @ 2019-07-23 17:52 月亮一直在呢 阅读 (51) 评论 (0) 编辑