蜗牛不爱海绵宝宝

2017年1月12日

摘要：今天我们学习的是spark sql的相关的知识点,一想到,自己最近就要回家了,就会感到幸福,好了不说了，我们先介绍今天的内容,今天我们讲的是spqrk sql相关的内容 1.我们为什么要学习spark sql 我们已经学习了Hive,它是将Hive SQL转换成为MapReduce然后提交到集群上阅读全文

posted @ 2017-01-12 09:40 蜗牛不爱海绵宝宝阅读(277) 评论(0) 推荐(0) 编辑

2017年1月11日

hashcode的作用

摘要：根据官方文档,我们可以抽成以下的几个关键点： 1.hashCode的存在主要是用于查找的快捷性,如hashtable，hashMap等,hashCode是用来在散列存储结构中确定对象的存储地址的 2.如果两个对象相同,就要适用于equals(java.lang.Object)方法,那么这两个对象的阅读全文

posted @ 2017-01-11 21:58 蜗牛不爱海绵宝宝阅读(248) 评论(0) 推荐(0) 编辑

spark中的RDD以及DAG

摘要：今天,我们就先聊一下spark中的DAG以及RDD的相关的内容 1.DAG:有向无环图:有方向,无闭环,代表着数据的流向，这个DAG的边界则是Action方法的执行 2.如何将DAG切分stage,stage切分的依据:有宽依赖的时候要进行切分(shuffle的时候, 也就是数据有网络的传递的时候) 阅读全文

posted @ 2017-01-11 00:12 蜗牛不爱海绵宝宝阅读(4269) 评论(1) 推荐(1) 编辑

2017年1月10日

JAVA的四种引用,强弱软虚用到的场景

摘要： 1.强引用最常用的引用类型,如Object object = new Object()，只要强引用存在,GC必定不回收,即使当前内存空间不足,jAVA虚拟机宁愿抛出OutofMemoryError错误,也不会靠随意回收具有强引用的对象来解决内存不足的问题 2.弱引用(WeakReference 阅读全文

posted @ 2017-01-10 00:35 蜗牛不爱海绵宝宝阅读(848) 评论(0) 推荐(0) 编辑

2017年1月9日

spark提交任务的流程

摘要： 1.spark提交流程 sparkContext其实是与一个集群建立一个链接，当你停掉它之后就会和集群断开链接，则属于这个资源的Excutor就会释放掉了，Driver 向Master申请资源，Master会向work分配资源，则会在wordCount里面会构建Rdd,则它会会构建DAG，DAG 阅读全文

posted @ 2017-01-09 21:39 蜗牛不爱海绵宝宝阅读(2190) 评论(0) 推荐(0) 编辑

方法的重写(Override)与重载(Overload)的含义与区别

摘要： 1.Override(重写) 两同,两小,一大两同:方法名相同,参数列表相同两小:抛出的异常要小于等于父类,返回值类型要小于等于父类一大:访问权限要大于等于父类 2.Overload(重载) 方法名相同,参数列表不同,其他(访问权限,返回值)随意阅读全文

posted @ 2017-01-09 03:00 蜗牛不爱海绵宝宝阅读(225) 评论(0) 推荐(0) 编辑

理解JAVA与C的运行机制

摘要： 1.java的运行机制 java的编译过程,将java的源程序(扩展名为.java的文件),由java编译程序将java的字节码文件(.class文件)在jvm上运行，机器码有cpu运行, jvm编译后是字节码，电脑只能运行字节码，则在java的运行的过程中将字节码转换成机器码 .java(源) - 阅读全文

posted @ 2017-01-09 02:53 蜗牛不爱海绵宝宝阅读(349) 评论(0) 推荐(0) 编辑

2017年1月6日

wordCount的执行流程

摘要：我们对于wordCount的这个流程，在清晰不过了，不过我们在使用spark以及hadoop本身的mapReduce的时候，我们是否理解其中的原理呢，今天我们就来介绍一下wordCount的执行原理， 1.首先我们都会这样子执行(wordCount执行在hadoop中) val rdd = sc.t 阅读全文

posted @ 2017-01-06 13:49 蜗牛不爱海绵宝宝阅读(1319) 评论(0) 推荐(0) 编辑

2017年1月5日

spark练习--mysql的读取

摘要：前面我们一直操作的是，通过一个文件来读取数据，这个里面不涉及数据相关的只是，今天我们来介绍一下spark操作中存放与读取 1.首先我们先介绍的是把数据存放进入mysql中，今天介绍的这个例子是我们前两篇介绍的统计IP的次数的一篇内容，最后的返回值类型是List((String,Int))类型的，其内阅读全文

posted @ 2017-01-05 21:59 蜗牛不爱海绵宝宝阅读(5265) 评论(0) 推荐(0) 编辑

spark练习--统计xxx大学的各个少数名族的情况

摘要：最近，有一份数据，是关于学校的数据，这个里面有所有学生的信息，今天闲来没事，我就想用spark的方式来读取文件，并且来统计这个学校的各个民族的情况，以前我用hadoop中mapReduce来计算，不得不说，又麻烦计算速度又慢首先，我们先看看这份数据长什么样子? 我在这个操作的时候，以为数据都是全的，阅读全文

posted @ 2017-01-05 21:23 蜗牛不爱海绵宝宝阅读(387) 评论(0) 推荐(0) 编辑

蜗牛不爱海绵宝宝

公告