2016 年 12月文章档案 - 传奇魔法师

使用spark进行机器学习之泰坦尼克号幸存者

摘要：这个题目是Kaggle上一道练习题，网址为https://www.kaggle.com/c/titanic，在官方教程中，提供了R，Python，Excel的解决方法。最近在学习Spark，感觉这个题目可以很好地练习Spark的相关模块，例如SQL，ML等。所以写下了这个博客来记录这个解决方法的流程阅读全文

posted @ 2016-12-28 16:01 传奇魔法师

基于MapReduce的大矩阵乘法（Spark实现）

摘要：矩阵向量乘法实现 $$x_i=\sum_{j=1}^nm_{ij}v_{j}$$ Map函数 Map函数应用于M的一个元素，但是如果执行Map任务的计算节点还没有将v读到内存，那么首先以一个整体的方式读入v，然后v就可以被该Map任务中执行的Map函数所用。每个Map任务将整个向量v和矩阵M的一个阅读全文

posted @ 2016-12-28 16:01 传奇魔法师

Spark源码解读系列--SparkContext的初始化（1）

摘要：Spark源码解读系列主要是基于《深入理解Spark 核心思想与源码分析》这本书的，另外加上我个人的补充，由于自己也是Spark的初学者，所以暂时不能解读源码背后的设计思想，只能结合书来解读源码的逻辑和功能。 SparkContext的初始化是Driver应用程序提交执行的前提，以下内容将会以loc 阅读全文

posted @ 2016-12-05 12:33 传奇魔法师

Spark设计理念与基本架构

摘要：Spark设计理念与Hadoop密不可分，它解决了Hadoop中的一些缺陷，先来看看Hadoop的缺陷。 Hadoop MapReduce v1的局限 MRv1都封装在mapred包中，其中Map和Reduce是通过接口实现的。它包括三个部分： 1. 运行时环境（JobTracker和TaskTra 阅读全文

posted @ 2016-12-02 19:01 传奇魔法师

Learning Spark阅读笔记4

摘要：Spark编程进阶两种类型的共享变量：累加器：用来对信息进行聚合。广播变量：用来高效分发较大的对象。数据介绍：使用业余无线电操作者的呼叫日志作为输入，构建出一个完整的示例应用。这些日志中至少包含联系过的站点的呼号。呼号是由国家分配的，每个国家都有自己的呼号号段。有一些呼叫日志也包含操作阅读全文

posted @ 2016-12-01 14:06 传奇魔法师

Learning Spark阅读笔记3

摘要：Loding and Saving Your Data 主要介绍Spark对于下面3类数据源的处理： 1. File formats and filesystems 2. Structured data sources through Spark SQL 3. Databases and key/v 阅读全文

posted @ 2016-12-01 10:33 传奇魔法师

传奇魔法师

12 2016 档案