公告

随笔分类 - Spark

摘要：1. 原理和理论基础（参考） 2. Spark代码实例： 1）windows 单机 2）集群模式需要打包，然后通过spark-submit 提交到yarn client或者cluster中： spark-submit --class myNaiveBayes --master yarn Scala 阅读全文

posted @ 2016-11-22 11:52 Suckseedeva 阅读(1258) 评论(0) 推荐(0)

Maven 配置使用小技巧

摘要：Spark开发中遇到了一些小问题，都是大神随便一个手指头帮我解决的。保持学习，积累吧！一. 基于Intellij IDEA编辑器 1. 快捷键注释/去注释 Ctrl+Shift+? 2. repository 依赖不同的公司可能有自己的私服，是同事们已经下载的jar包等，可以在 .m2/set 阅读全文

posted @ 2016-11-13 15:29 Suckseedeva 阅读(366) 评论(0) 推荐(0)

host 文件

摘要：艾玛，果然一个破的小问题也能纠结好久！不过终于过去了。。。 1. 机器上的host文件目录一般是 /etc/hosts 主要可能会涉及一些网站的安全访问，把网站加入hosts也就意味着加入了白名单；访问机器ip 试图访问网页 11.11.11.11 baidu.com 2. windows的ho 阅读全文

posted @ 2016-10-29 17:17 Suckseedeva 阅读(295) 评论(0) 推荐(0)

序列化

摘要：专业一点的解释： http://www.cnblogs.com/zhjjNo1/archive/2009/07/06/1517843.html 通俗版序列化：应该是说一个数据结构，比如二叉树之类，序列化以后会变成一个char数组或者一个string字符串这样，方便你存到文件里面或者通过网络传输。阅读全文

posted @ 2016-09-29 14:41 Suckseedeva 阅读(190) 评论(0) 推荐(0)

GraphX的三大图算法

摘要：1. PageRank http://blog.csdn.net/hguisu/article/details/7996185 2. Connected Components 3. Triangle Counting 例子： users.txt followers.txt 算法实战：阅读全文

posted @ 2016-09-28 16:35 Suckseedeva 阅读(3820) 评论(0) 推荐(0)

GraphX 的属性图

摘要：package main.scala import org.apache.spark.graphx.{Edge, Graph, VertexId} import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object graph_test { // define hadoop... 阅读全文

posted @ 2016-09-23 15:23 Suckseedeva 阅读(642) 评论(0) 推荐(0)

Spark 编程基础

摘要：1. 初始化Spark 2. 创建RDD的方法内存：Parallelize 或者 makeRDD 外部文件：textFile 3. 保存Spark结果 RDD可以使用 saveAsTextFile()保存下来；非RDD，可以借助 Parallelize/makeRDD转化为RDD，再保存下来 4 阅读全文

posted @ 2016-09-13 10:17 Suckseedeva 阅读(425) 评论(0) 推荐(0)

翻滚吧，Spark （错误记录）

摘要：1) 本地运行报错：解决方案：第一种，在代码里设置：第二种，在IDE里设置为本地单线程运行（-Dspark.master=local） 2) 调用函数出错：原因：main函数和另一个独立的函数我都定义了SparkContext 解决：把main函数里面的SparkContext定义去掉。直阅读全文

posted @ 2016-09-10 16:58 Suckseedeva 阅读(4694) 评论(0) 推荐(0)

Win7 单机Spark和PySpark安装

摘要：欢呼一下先。软件环境菜鸟的我终于把单机Spark 和 Pyspark 安装成功了。加油加油！！！ 1. 安装方法参考：已安装Pycharm 和 Intellij IDEA。 win7 PySpark 安装： http://blog.csdn.net/a819825294/article/detai 阅读全文

posted @ 2016-09-10 15:51 Suckseedeva 阅读(3475) 评论(0) 推荐(0)

[最优化算法] 梯度下降

摘要：梯度下降（GD,Gradient descend）是最小化风险函数、损失函数的一种常用方法随机梯度下降和批量梯度下降是两种迭代求解思路。阅读全文

posted @ 2016-07-15 16:41 Suckseedeva 阅读(257) 评论(0) 推荐(0)

[聚类算法] K-means 算法

摘要：聚类和 k-means简单概括。聚类是一种无监督学习问题，它的目标就是基于相似度将相似的子集聚合在一起。 k-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据它们的属性分为k个聚类，以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。 k 阅读全文

posted @ 2016-06-30 18:00 Suckseedeva 阅读(682) 评论(0) 推荐(0)

[回归问题] 逻辑回归，线性回归

摘要：回归问题概括： 1）数据 2）假设的模型，即一个含有未知的参数的函数。通过学习，可以估计出参数。然后利用这个模型去预测/分类新的数据回归和分类：都属于有监督的学习分类返回的是明确的类别信息，0 or 1，是 or 否回归返回的是，某一个值或者范围的取值概率。如果把概率大小跟最终类别关联起阅读全文

posted @ 2016-06-28 13:47 Suckseedeva 阅读(675) 评论(0) 推荐(0)

[分类算法] ：SVM支持向量机

摘要：Support vector machines 支持向量机，简称SVM 分类算法的目的是学会一个分类函数或者分类模型（分类器），能够把数据库中的数据项映射给定类别中的某一个，从而可以预测未知类别。 SVM是一种监督式学习的方法。支持向量：支持或支撑平面上把两类类别划分开来的超平面的向量点机：就是阅读全文

posted @ 2016-06-27 15:53 Suckseedeva 阅读(482) 评论(0) 推荐(0)

Spark 与 MapReduce的区别

摘要：学习参考自 http://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html 1. Shuffle read 边 fetch 边处理还是一次性 fetch 完再处理？边 fetch 边处理。 MapReduce shu 阅读全文

posted @ 2016-06-16 19:21 Suckseedeva 阅读(1788) 评论(0) 推荐(0)

[协同过滤] : 交替最小二乘法

摘要：1. 基础回顾矩阵的奇异值分解 SVD （特别详细的总结，参考 http://blog.csdn.net/wangzhiqing3/article/details/7446444）矩阵与向量相乘的结果与特征值，特征向量有关。数值小的特征值对矩阵-向量相乘的结果贡献小 1）低秩近似 2）特征降维阅读全文

posted @ 2016-06-08 14:53 Suckseedeva 阅读(10353) 评论(0) 推荐(1)

Spark MLib 基本统计汇总 2

摘要：4. 假设检验基础回顾：假设检验，用于判断一个结果是否在统计上是显著的、这个结果是否有机会发生。显著性检验原假设与备择假设常把一个要检验的假设记作 H0,称为原假设（或零假设） (null hypothesis) 与H0对立的假设记作H1，称为备择假设(alternative hypoth 阅读全文

posted @ 2016-06-06 14:11 Suckseedeva 阅读(1321) 评论(0) 推荐(1)

Spark MLib 基本统计汇总 1

摘要：1. 概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计，它通过调用 Statistics 的 colStats方法实现。 colStats返回一个 MultivariateStatisticalSummary 对象，这个对象包含列式的最大值、最小值、阅读全文

posted @ 2016-06-02 19:10 Suckseedeva 阅读(2452) 评论(0) 推荐(1)

Spark MLib 数据类型

摘要：1. MLlib Apache Spark's scalable machine learning library, with APIs in Java, Scala and Python. 2. 数据类型本地向量，标注点，本地矩阵，分布式矩阵 3. 本地向量 Local Vector 稠密向量阅读全文

posted @ 2016-05-28 17:51 Suckseedeva 阅读(969) 评论(0) 推荐(0)

Spark 常用参数及调优

摘要：spark streaming 调优的几个角度：高效地利用集群资源减少批数据的处理时间设置正确的批容量（size），使数据的处理速度能够赶上数据的接收速度内存调优设置正确的批容量（size），使数据的处理速度能够赶上数据的接收速度 Spark SQL 可以通过调用 sqlContext.ca 阅读全文

posted @ 2016-05-16 19:45 Suckseedeva 阅读(457) 评论(0) 推荐(0)

Spark Shell & Spark submit

摘要：Spark 的 shell 是一个强大的交互式数据分析工具。 1. 搭建Spark 2. 两个目录下面有可执行文件： bin 包含spark-shell 和 spark-submit sbin 包含 sbin/start-master.sh：在机器上启动一个master实例 sbin/start-s 阅读全文

posted @ 2016-05-12 15:20 Suckseedeva 阅读(506) 评论(0) 推荐(0)

见贤思小齐，知足常乐呵

公告

随笔分类 - Spark