12 2016 档案

摘要:这个题目是Kaggle上一道练习题,网址为https://www.kaggle.com/c/titanic,在官方教程中,提供了R,Python,Excel的解决方法。最近在学习Spark,感觉这个题目可以很好地练习Spark的相关模块,例如SQL,ML等。所以写下了这个博客来记录这个解决方法的流程 阅读全文
posted @ 2016-12-28 16:01 传奇魔法师
摘要:矩阵 向量乘法实现 $$x_i=\sum_{j=1}^nm_{ij}v_{j}$$ Map函数 Map函数应用于M的一个元素,但是如果执行Map任务的计算节点还没有将v读到内存,那么首先以一个整体的方式读入v,然后v就可以被该Map任务中执行的Map函数所用。每个Map任务将整个向量v和矩阵M的一个 阅读全文
posted @ 2016-12-28 16:01 传奇魔法师
摘要:Spark源码解读系列主要是基于《深入理解Spark 核心思想与源码分析》这本书的,另外加上我个人的补充,由于自己也是Spark的初学者,所以暂时不能解读源码背后的设计思想,只能结合书来解读源码的逻辑和功能。 SparkContext的初始化是Driver应用程序提交执行的前提,以下内容将会以loc 阅读全文
posted @ 2016-12-05 12:33 传奇魔法师
摘要:Spark设计理念与Hadoop密不可分,它解决了Hadoop中的一些缺陷,先来看看Hadoop的缺陷。 Hadoop MapReduce v1的局限 MRv1都封装在mapred包中,其中Map和Reduce是通过接口实现的。它包括三个部分: 1. 运行时环境(JobTracker和TaskTra 阅读全文
posted @ 2016-12-02 19:01 传奇魔法师
摘要:Spark编程进阶 两种类型的共享变量: 累加器 :用来对信息进行聚合。 广播变量 :用来高效分发较大的对象。 数据介绍: 使用业余无线电操作者的呼叫日志作为输入,构建出一个完整的示例应用。这些日志中至少包含联系过的站点的呼号。呼号是由国家分配的,每个国家都有自己的呼号号段。有一些呼叫日志也包含操作 阅读全文
posted @ 2016-12-01 14:06 传奇魔法师
摘要:Loding and Saving Your Data 主要介绍Spark对于下面3类数据源的处理: 1. File formats and filesystems 2. Structured data sources through Spark SQL 3. Databases and key/v 阅读全文
posted @ 2016-12-01 10:33 传奇魔法师