摘要: 今天我们学习的是spark sql的相关的知识点,一想到,自己最近就要回家了,就会感到幸福,好了不说了, 我们先介绍今天的内容,今天我们讲的是spqrk sql相关的内容 1.我们为什么要学习spark sql 我们已经学习了Hive,它是将Hive SQL转换成为MapReduce然后提交到集群上 阅读全文
posted @ 2017-01-12 09:40 蜗牛不爱海绵宝宝 阅读(277) 评论(0) 推荐(0) 编辑
摘要: 根据官方文档,我们可以抽成以下的几个关键点: 1.hashCode的存在主要是用于查找的快捷性,如hashtable,hashMap等,hashCode是用来 在散列存储结构中确定对象的存储地址的 2.如果两个对象相同,就要适用于equals(java.lang.Object)方法,那么这两个对象的 阅读全文
posted @ 2017-01-11 21:58 蜗牛不爱海绵宝宝 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 今天,我们就先聊一下spark中的DAG以及RDD的相关的内容 1.DAG:有向无环图:有方向,无闭环,代表着数据的流向,这个DAG的边界则是Action方法的执行 2.如何将DAG切分stage,stage切分的依据:有宽依赖的时候要进行切分(shuffle的时候, 也就是数据有网络的传递的时候) 阅读全文
posted @ 2017-01-11 00:12 蜗牛不爱海绵宝宝 阅读(4269) 评论(1) 推荐(1) 编辑
摘要: 1.强引用 最常用的引用类型,如Object object = new Object(),只要强引用存在,GC必定 不回收,即使当前内存空间不足,jAVA虚拟机宁愿抛出OutofMemoryError错误,也不 会靠随意回收具有强引用的对象来解决内存不足的问题 2.弱引用(WeakReference 阅读全文
posted @ 2017-01-10 00:35 蜗牛不爱海绵宝宝 阅读(848) 评论(0) 推荐(0) 编辑
摘要: 1.spark提交流程 sparkContext其实是与一个集群建立一个链接,当你停掉它之后 就会和集群断开链接,则属于这个资源的Excutor就会释放掉了,Driver 向Master申请资源,Master会向work分配资源,则会在wordCount里面会 构建Rdd,则它会会构建DAG,DAG 阅读全文
posted @ 2017-01-09 21:39 蜗牛不爱海绵宝宝 阅读(2190) 评论(0) 推荐(0) 编辑
摘要: 1.Override(重写) 两同,两小,一大 两同:方法名相同,参数列表相同 两小:抛出的异常要小于等于父类,返回值类型要小于等于父类 一大:访问权限要大于等于父类 2.Overload(重载) 方法名相同,参数列表不同,其他(访问权限,返回值)随意 阅读全文
posted @ 2017-01-09 03:00 蜗牛不爱海绵宝宝 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 1.java的运行机制 java的编译过程,将java的源程序(扩展名为.java的文件),由java编译程序将java的字节码文件(.class文件)在jvm上运行,机器码有cpu运行, jvm编译后是字节码,电脑只能运行字节码,则在java的运行的过程中将字节码转换成机器码 .java(源) - 阅读全文
posted @ 2017-01-09 02:53 蜗牛不爱海绵宝宝 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 我们对于wordCount的这个流程,在清晰不过了,不过我们在使用spark以及hadoop本身的mapReduce的时候,我们是否理解其中的原理呢,今天我们就来介绍一下wordCount的执行原理, 1.首先我们都会这样子执行(wordCount执行在hadoop中) val rdd = sc.t 阅读全文
posted @ 2017-01-06 13:49 蜗牛不爱海绵宝宝 阅读(1319) 评论(0) 推荐(0) 编辑
摘要: 前面我们一直操作的是,通过一个文件来读取数据,这个里面不涉及数据相关的只是,今天我们来介绍一下spark操作中存放与读取 1.首先我们先介绍的是把数据存放进入mysql中,今天介绍的这个例子是我们前两篇介绍的统计IP的次数的一篇内容,最后的返回值类型是List((String,Int))类型的,其内 阅读全文
posted @ 2017-01-05 21:59 蜗牛不爱海绵宝宝 阅读(5265) 评论(0) 推荐(0) 编辑
摘要: 最近,有一份数据,是关于学校的数据,这个里面有所有学生的信息,今天闲来没事,我就想用spark的方式来读取文件,并且来统计这个学校的各个民族的情况,以前我用hadoop中mapReduce来计算,不得不说,又麻烦计算速度又慢首先,我们先看看这份数据长什么样子? 我在这个操作的时候,以为数据都是全的, 阅读全文
posted @ 2017-01-05 21:23 蜗牛不爱海绵宝宝 阅读(387) 评论(0) 推荐(0) 编辑