随笔档案「2019年8月」 - 踩在浪花上

linux常用操作命令

摘要：linux的两种硬盘类型，一种IDE，一种SCSI 一块硬盘最多有四个主分区（扩展分区算一个分区），即主分区和扩展分区总数不超过4，扩展分区上有逻辑分区，总数不超过12 linux的分区命名，xxyN xx：硬盘类型，hd为IDE，sd为SCSI yy：表示第几块硬盘（a,b,c...) N：表示阅读全文

posted @ 2019-08-17 16:58 踩在浪花上阅读(505) 评论(0) 推荐(0)

spark学习(10)-RDD的介绍和常用算子

摘要：RDD(弹性分布式数据集，里面并不存储真正要计算的数据，你对RDD的操作，他会在Driver端转换成Task，下发到Executor计算分散在多台集群上的数据) RDD是一个代理，你对代理进行操作，他会生成Task，帮你计算你操作这个代理，就像操作本地集合一样，不用关心任务调度，容错等 RDD的属性阅读全文

posted @ 2019-08-10 13:52 踩在浪花上阅读(922) 评论(0) 推荐(0)

spark学习(9)-spark的安装与简单使用

摘要：spark和mapreduce差不多，都是一种计算引擎，spark相对于MapReduce来说，他的区别是，MapReduce会把计算结果放在磁盘，spark把计算结果既放在磁盘中有放在内存中，mapreduce把可能会把一个大任务分成多个stage，瓶颈发生在IO，spark有一个叫DAG（有向阅读全文

posted @ 2019-08-09 14:32 踩在浪花上阅读(1346) 评论(0) 推荐(0)

Hadoop学习(8)-scala环境配置及简单使用

摘要：学习scala的原因主要是因为以后要学习spark。 scala是运行在java虚拟机上的，它是一种面向对象和函数式编程结合的语言，并兼容java程序相对于java更简单安装scala前提你要保证你已经安装好了jdk 然后下载这个msi版本的，下载完直接下一步下一步傻瓜安装然后下载个IDEA 阅读全文

posted @ 2019-08-08 13:50 踩在浪花上阅读(719) 评论(0) 推荐(1)

Hadoop学习(7)-hive的安装和命令行使用和java操作

摘要：Hive的用处，就是把hdfs里的文件建立映射转化成数据库的表但hive里的sql语句都是转化成了mapruduce来对hdfs里的数据进行处理，并不是真正的在数据库里进行了操作。而那些表的定义则是储存在了mysql数据库中，他只是记录相应表的定义所以你的集群中要有一台机器装了mysql 装阅读全文

posted @ 2019-08-07 09:46 踩在浪花上阅读(1052) 评论(0) 推荐(0)

Hadoop学习(5)-zookeeper的安装和命令行，java操作

摘要：zookeeper是干嘛的呢 Zookeeper的作用1.可以为客户端管理少量的数据kvkey：是以路径的形式表示的，那就意味着，各key之间有父子关系，比如/ 是顶层key用户建的key只能在/ 下作为子节点，比如建一个key： /aa 这个key可以带value数据也可以建一个key： /bb也阅读全文

posted @ 2019-08-06 16:15 踩在浪花上阅读(497) 评论(0) 推荐(0)

SZUhg

08 2019 档案

公告