随笔分类 -  Spark

spark svm
摘要:首先spark上的svm只能处理线性的,不能处理非线性的。其次spark上的svm求解过程与普通的不同。普通的是通过拉格朗日对偶,然后通过SMO方法求。但是在spark上,则没有通过拉格朗日,而是直接对损失函数利用随机梯度下降方法进行求解。那么,svm的损失函数是啥?其实就是个合页函数+正则化。具体的会在中讲解为啥spark上的svm没有非线性?因为非线性的那个是通过拉格朗日对偶,然后得到的表达式... 阅读全文
posted @ 2017-03-05 12:12 sunrye 阅读(588) 评论(0) 推荐(0)
决策树对类别型数据的处理
摘要:http://stackoverflow.com/questions/25038294/how-do-i-run-the-spark-decision-tree-with-a-categorical-feature-set-using-scala一开始觉得这个不是问题,因为DT本身就是处理类别型数据的,加上之前自己写代码的时候也都是支持类别型数据的。所以按照自己的理解,如果数据是a,h,yb,c,... 阅读全文
posted @ 2017-03-05 12:11 sunrye 阅读(1868) 评论(0) 推荐(0)
kmeans
摘要:如果是自己写kmeans的话,会怎么写呢?首先kmeans的算法步骤是随机选取k个点作为初始的簇心,接着计算各个点到各个簇心的距离,将最近的簇心作为该点的簇心。接着对相同簇心的点做平均,得到下一个簇心接着就是不停地迭代,知道收敛为止那么哪些步骤可以并行计算呢?这里主要有两部分计算量第一部分是计算各个点到各个簇心的距离,并选取最短的簇心作为自己的簇心第二部分是计算每个簇的均值从而获得下个迭代的簇心目... 阅读全文
posted @ 2017-03-05 12:11 sunrye 阅读(387) 评论(0) 推荐(0)
streaming kafka direct 详解
摘要:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ http://www.jianshu.com/p/b4af851286e5 streaming通过direct接收数据的入口是createDirectStream,调用该方法的时候会先创建val kc = new KafkaCl... 阅读全文
posted @ 2017-03-05 12:10 sunrye 阅读(714) 评论(0) 推荐(0)
Tungsten
摘要:https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html这个是spark1.4后引入的一个东西,他的目的主要是提高内存和CPU的利用率。感觉挺奇怪的,不是一直说瓶颈在于IO和网络带宽么,怎么现在还来提高内存和CPU的利用率了?为啥就说CPU和内存就说瓶颈了?在作者... 阅读全文
posted @ 2017-03-05 12:09 sunrye 阅读(499) 评论(0) 推荐(0)
Spark 各个组件关系
摘要:TermMeaningApplicationUser program built on Spark. Consists of a driver program and executors on the cluster.Application jarA jar containing the user's Spark application. In some cases users will want... 阅读全文
posted @ 2017-03-05 12:08 sunrye 阅读(3278) 评论(0) 推荐(1)
PageRank在Hadoop和spark下的实现以及对比
摘要:关于PageRank的地位,不必多说。主要思想:对于每个网页,用户都有可能点击网页上的某个链接,例如A:B,C,DB:A,DC:AD:B,C由这个我们可以得到网页的转移矩阵 A B C DA 0 1/2 1 0B 1/3 0 0 0C 1/3 1/2 0 0D 1/3 0 0... 阅读全文
posted @ 2015-06-30 21:04 sunrye 阅读(4846) 评论(4) 推荐(2)
Spark 的combineByKey函数
摘要:在Spark中有许多聚类操作是基于combineByKey的,例如group那个家族的操作等。所以combineByKey这个函数也是比较重要,所以下午花了点时间看来下这个函数。也参考了http://www.tuicool.com/articles/miueaqv这篇博客。先看下combineByK... 阅读全文
posted @ 2015-06-29 17:41 sunrye 阅读(1267) 评论(0) 推荐(0)
Spark1.3.0安装
摘要:之前在用Hadoop写ML算法的时候就隐约感觉Hadoop实在是不适合ML这些比较复杂的算法。记得当时写完kmeans后,发现每个job完成后都需要将结果放在HDFS中,然后下次迭代的时候再从文件中读取,对于kmeans这种高迭代的算法,感觉Hadoop的瓶颈会出现在IO上,后来又写了个Naiveb... 阅读全文
posted @ 2015-06-18 16:54 sunrye 阅读(784) 评论(2) 推荐(0)