08 2019 档案
摘要:linux的两种硬盘类型,一种IDE,一种SCSI 一块硬盘最多有四个主分区(扩展分区算一个分区),即主分区和扩展分区总数不超过4, 扩展分区上有逻辑分区,总数不超过12 linux的分区命名,xxyN xx:硬盘类型,hd为IDE,sd为SCSI yy:表示第几块硬盘(a,b,c...) N:表示
阅读全文
摘要:RDD(弹性分布式数据集,里面并不存储真正要计算的数据,你对RDD的操作,他会在Driver端转换成Task,下发到Executor计算分散在多台集群上的数据) RDD是一个代理,你对代理进行操作,他会生成Task,帮你计算你操作这个代理,就像操作本地集合一样,不用关心任务调度,容错等 RDD的属性
阅读全文
摘要:spark和mapreduce差不多,都是一种计算引擎,spark相对于MapReduce来说,他的区别是,MapReduce会把计算结果放 在磁盘,spark把计算结果既放在磁盘中有放在内存中,mapreduce把可能会把一个大任务分成多个stage,瓶颈发生在IO,spark有一个叫DAG(有向
阅读全文
摘要:学习scala的原因主要是因为以后要学习spark。 scala是运行在java虚拟机上的,它是一种面向对象和函数式编程结合的语言,并兼容java程序 相对于java更简单 安装scala前提你要保证你已经安装好了jdk 然后 下载这个msi版本的,下载完直接下一步下一步傻瓜安装 然后下载个IDEA
阅读全文
摘要:Hive的用处,就是把hdfs里的文件建立映射转化成数据库的表 但hive里的sql语句都是转化成了mapruduce来对hdfs里的数据进行处理 ,并不是真正的在数据库里进行了操作。 而那些表的定义则是储存在了mysql数据库中,他只是记录相应表的定义 所以你的集群中要有一台机器装了mysql 装
阅读全文
摘要:zookeeper是干嘛的呢 Zookeeper的作用1.可以为客户端管理少量的数据kvkey:是以路径的形式表示的,那就意味着,各key之间有父子关系,比如/ 是顶层key用户建的key只能在/ 下作为子节点,比如建一个key: /aa 这个key可以带value数据也可以建一个key: /bb也
阅读全文

浙公网安备 33010602011771号