见贤思小齐,知足常乐呵

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  Spark

摘要:1. 原理和理论基础(参考) 2. Spark代码实例: 1)windows 单机 2)集群模式 需要打包,然后通过spark-submit 提交到yarn client或者cluster中: spark-submit --class myNaiveBayes --master yarn Scala 阅读全文
posted @ 2016-11-22 11:52 Suckseedeva 阅读(1258) 评论(0) 推荐(0)

摘要:Spark开发中遇到了一些小问题,都是大神随便一个手指头帮我解决的。保持学习,积累吧! 一. 基于Intellij IDEA编辑器 1. 快捷键 注释/去注释 Ctrl+Shift+? 2. repository 依赖 不同的公司可能有自己的私服,是同事们已经下载的jar包等,可以在 .m2/set 阅读全文
posted @ 2016-11-13 15:29 Suckseedeva 阅读(366) 评论(0) 推荐(0)

摘要:艾玛,果然一个破的小问题也能纠结好久!不过终于过去了。。。 1. 机器上的host文件目录一般是 /etc/hosts 主要可能会涉及一些网站的安全访问,把网站加入hosts也就意味着 加入了白名单; 访问机器ip 试图访问网页 11.11.11.11 baidu.com 2. windows的ho 阅读全文
posted @ 2016-10-29 17:17 Suckseedeva 阅读(295) 评论(0) 推荐(0)

摘要:专业一点的解释: http://www.cnblogs.com/zhjjNo1/archive/2009/07/06/1517843.html 通俗版序列化: 应该是说一个数据结构,比如二叉树之类,序列化以后会变成一个char数组或者一个string字符串这样,方便你存到文件里面或者通过网络传输。 阅读全文
posted @ 2016-09-29 14:41 Suckseedeva 阅读(190) 评论(0) 推荐(0)

摘要:1. PageRank http://blog.csdn.net/hguisu/article/details/7996185 2. Connected Components 3. Triangle Counting 例子: users.txt followers.txt 算法实战: 阅读全文
posted @ 2016-09-28 16:35 Suckseedeva 阅读(3820) 评论(0) 推荐(0)

摘要:package main.scala import org.apache.spark.graphx.{Edge, Graph, VertexId} import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object graph_test { // define hadoop... 阅读全文
posted @ 2016-09-23 15:23 Suckseedeva 阅读(642) 评论(0) 推荐(0)

摘要:1. 初始化Spark 2. 创建RDD的方法 内存:Parallelize 或者 makeRDD 外部文件:textFile 3. 保存Spark结果 RDD可以使用 saveAsTextFile()保存下来; 非RDD,可以借助 Parallelize/makeRDD转化为RDD,再保存下来 4 阅读全文
posted @ 2016-09-13 10:17 Suckseedeva 阅读(425) 评论(0) 推荐(0)

摘要:1) 本地运行报错: 解决方案: 第一种, 在代码里设置: 第二种,在IDE里设置为本地单线程运行(-Dspark.master=local) 2) 调用函数出错: 原因:main函数和另一个独立的函数我都定义了SparkContext 解决:把main函数里面的SparkContext定义去掉。直 阅读全文
posted @ 2016-09-10 16:58 Suckseedeva 阅读(4694) 评论(0) 推荐(0)

摘要:欢呼一下先。软件环境菜鸟的我终于把单机Spark 和 Pyspark 安装成功了。加油加油!!! 1. 安装方法参考: 已安装Pycharm 和 Intellij IDEA。 win7 PySpark 安装: http://blog.csdn.net/a819825294/article/detai 阅读全文
posted @ 2016-09-10 15:51 Suckseedeva 阅读(3474) 评论(0) 推荐(0)

摘要:梯度下降(GD,Gradient descend)是最小化风险函数、损失函数的一种常用方法 随机梯度下降和批量梯度下降是两种迭代求解思路。 阅读全文
posted @ 2016-07-15 16:41 Suckseedeva 阅读(257) 评论(0) 推荐(0)

摘要:聚类 和 k-means简单概括。 聚类是一种 无监督学习 问题,它的目标就是基于 相似度 将相似的子集聚合在一起。 k-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据它们的属性分为k个聚类,以便使得所获得的聚类满足: 同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。 k 阅读全文
posted @ 2016-06-30 18:00 Suckseedeva 阅读(682) 评论(0) 推荐(0)

摘要:回归问题概括: 1) 数据 2) 假设的模型,即一个含有未知的参数的函数。通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据 回归和分类: 都属于有监督的学习 分类返回的是明确的类别信息,0 or 1,是 or 否 回归返回的是,某一个值或者范围的取值概率。如果把概率大小跟最终类别关联起 阅读全文
posted @ 2016-06-28 13:47 Suckseedeva 阅读(675) 评论(0) 推荐(0)

摘要:Support vector machines 支持向量机,简称SVM 分类算法的目的是学会一个分类函数或者分类模型(分类器),能够把数据库中的数据项映射给定类别中的某一个,从而可以预测未知类别。 SVM是一种监督式学习的方法。 支持向量:支持或支撑平面上把两类类别划分开来的超平面的向量点 机:就是 阅读全文
posted @ 2016-06-27 15:53 Suckseedeva 阅读(480) 评论(0) 推荐(0)

摘要:学习参考自 http://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html 1. Shuffle read 边 fetch 边处理还是一次性 fetch 完再处理? 边 fetch 边处理。 MapReduce shu 阅读全文
posted @ 2016-06-16 19:21 Suckseedeva 阅读(1788) 评论(0) 推荐(0)

摘要:1. 基础回顾 矩阵的奇异值分解 SVD (特别详细的总结,参考 http://blog.csdn.net/wangzhiqing3/article/details/7446444) 矩阵与向量相乘的结果与特征值,特征向量有关。 数值小的特征值对矩阵-向量相乘的结果贡献小 1)低秩近似 2)特征降维 阅读全文
posted @ 2016-06-08 14:53 Suckseedeva 阅读(10350) 评论(0) 推荐(1)

摘要:4. 假设检验 基础回顾: 假设检验,用于判断一个结果是否在统计上是显著的、这个结果是否有机会发生。 显著性检验 原假设与备择假设 常把一个要检验的假设记作 H0,称为原假设(或零假设) (null hypothesis) 与H0对立的假设记作H1,称为备择假设(alternative hypoth 阅读全文
posted @ 2016-06-06 14:11 Suckseedeva 阅读(1321) 评论(0) 推荐(1)

摘要:1. 概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现。 colStats返回一个 MultivariateStatisticalSummary 对象,这个对象包含列式的最大值、最小值、 阅读全文
posted @ 2016-06-02 19:10 Suckseedeva 阅读(2452) 评论(0) 推荐(1)

摘要:1. MLlib Apache Spark's scalable machine learning library, with APIs in Java, Scala and Python. 2. 数据类型 本地向量,标注点,本地矩阵,分布式矩阵 3. 本地向量 Local Vector 稠密向量 阅读全文
posted @ 2016-05-28 17:51 Suckseedeva 阅读(969) 评论(0) 推荐(0)

摘要:spark streaming 调优的几个角度: 高效地利用集群资源减少批数据的处理时间 设置正确的批容量(size),使数据的处理速度能够赶上数据的接收速度 内存调优 设置正确的批容量(size),使数据的处理速度能够赶上数据的接收速度 Spark SQL 可以通过调用 sqlContext.ca 阅读全文
posted @ 2016-05-16 19:45 Suckseedeva 阅读(457) 评论(0) 推荐(0)

摘要:Spark 的 shell 是一个强大的交互式数据分析工具。 1. 搭建Spark 2. 两个目录下面有可执行文件: bin 包含spark-shell 和 spark-submit sbin 包含 sbin/start-master.sh:在机器上启动一个master实例 sbin/start-s 阅读全文
posted @ 2016-05-12 15:20 Suckseedeva 阅读(506) 评论(0) 推荐(0)