摘要:1. 原理和理论基础(参考) 2. Spark代码实例: 1)windows 单机 2)集群模式 需要打包,然后通过spark-submit 提交到yarn client或者cluster中: spark-submit --class myNaiveBayes --master yarn Scala
阅读全文
随笔分类 - Spark
摘要:1. 原理和理论基础(参考) 2. Spark代码实例: 1)windows 单机 2)集群模式 需要打包,然后通过spark-submit 提交到yarn client或者cluster中: spark-submit --class myNaiveBayes --master yarn Scala
阅读全文
摘要:Spark开发中遇到了一些小问题,都是大神随便一个手指头帮我解决的。保持学习,积累吧! 一. 基于Intellij IDEA编辑器 1. 快捷键 注释/去注释 Ctrl+Shift+? 2. repository 依赖 不同的公司可能有自己的私服,是同事们已经下载的jar包等,可以在 .m2/set
阅读全文
摘要:艾玛,果然一个破的小问题也能纠结好久!不过终于过去了。。。 1. 机器上的host文件目录一般是 /etc/hosts 主要可能会涉及一些网站的安全访问,把网站加入hosts也就意味着 加入了白名单; 访问机器ip 试图访问网页 11.11.11.11 baidu.com 2. windows的ho
阅读全文
摘要:专业一点的解释: http://www.cnblogs.com/zhjjNo1/archive/2009/07/06/1517843.html 通俗版序列化: 应该是说一个数据结构,比如二叉树之类,序列化以后会变成一个char数组或者一个string字符串这样,方便你存到文件里面或者通过网络传输。
阅读全文
摘要:1. PageRank http://blog.csdn.net/hguisu/article/details/7996185 2. Connected Components 3. Triangle Counting 例子: users.txt followers.txt 算法实战:
阅读全文
摘要:package main.scala import org.apache.spark.graphx.{Edge, Graph, VertexId} import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object graph_test { // define hadoop...
阅读全文
摘要:1. 初始化Spark 2. 创建RDD的方法 内存:Parallelize 或者 makeRDD 外部文件:textFile 3. 保存Spark结果 RDD可以使用 saveAsTextFile()保存下来; 非RDD,可以借助 Parallelize/makeRDD转化为RDD,再保存下来 4
阅读全文
摘要:1) 本地运行报错: 解决方案: 第一种, 在代码里设置: 第二种,在IDE里设置为本地单线程运行(-Dspark.master=local) 2) 调用函数出错: 原因:main函数和另一个独立的函数我都定义了SparkContext 解决:把main函数里面的SparkContext定义去掉。直
阅读全文
摘要:欢呼一下先。软件环境菜鸟的我终于把单机Spark 和 Pyspark 安装成功了。加油加油!!! 1. 安装方法参考: 已安装Pycharm 和 Intellij IDEA。 win7 PySpark 安装: http://blog.csdn.net/a819825294/article/detai
阅读全文
摘要:梯度下降(GD,Gradient descend)是最小化风险函数、损失函数的一种常用方法 随机梯度下降和批量梯度下降是两种迭代求解思路。
阅读全文
摘要:聚类 和 k-means简单概括。 聚类是一种 无监督学习 问题,它的目标就是基于 相似度 将相似的子集聚合在一起。 k-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据它们的属性分为k个聚类,以便使得所获得的聚类满足: 同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。 k
阅读全文
摘要:回归问题概括: 1) 数据 2) 假设的模型,即一个含有未知的参数的函数。通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据 回归和分类: 都属于有监督的学习 分类返回的是明确的类别信息,0 or 1,是 or 否 回归返回的是,某一个值或者范围的取值概率。如果把概率大小跟最终类别关联起
阅读全文
摘要:Support vector machines 支持向量机,简称SVM 分类算法的目的是学会一个分类函数或者分类模型(分类器),能够把数据库中的数据项映射给定类别中的某一个,从而可以预测未知类别。 SVM是一种监督式学习的方法。 支持向量:支持或支撑平面上把两类类别划分开来的超平面的向量点 机:就是
阅读全文
摘要:学习参考自 http://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html 1. Shuffle read 边 fetch 边处理还是一次性 fetch 完再处理? 边 fetch 边处理。 MapReduce shu
阅读全文
摘要:1. 基础回顾 矩阵的奇异值分解 SVD (特别详细的总结,参考 http://blog.csdn.net/wangzhiqing3/article/details/7446444) 矩阵与向量相乘的结果与特征值,特征向量有关。 数值小的特征值对矩阵-向量相乘的结果贡献小 1)低秩近似 2)特征降维
阅读全文
摘要:4. 假设检验 基础回顾: 假设检验,用于判断一个结果是否在统计上是显著的、这个结果是否有机会发生。 显著性检验 原假设与备择假设 常把一个要检验的假设记作 H0,称为原假设(或零假设) (null hypothesis) 与H0对立的假设记作H1,称为备择假设(alternative hypoth
阅读全文
摘要:1. 概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现。 colStats返回一个 MultivariateStatisticalSummary 对象,这个对象包含列式的最大值、最小值、
阅读全文
摘要:1. MLlib Apache Spark's scalable machine learning library, with APIs in Java, Scala and Python. 2. 数据类型 本地向量,标注点,本地矩阵,分布式矩阵 3. 本地向量 Local Vector 稠密向量
阅读全文
摘要:spark streaming 调优的几个角度: 高效地利用集群资源减少批数据的处理时间 设置正确的批容量(size),使数据的处理速度能够赶上数据的接收速度 内存调优 设置正确的批容量(size),使数据的处理速度能够赶上数据的接收速度 Spark SQL 可以通过调用 sqlContext.ca
阅读全文
摘要:Spark 的 shell 是一个强大的交互式数据分析工具。 1. 搭建Spark 2. 两个目录下面有可执行文件: bin 包含spark-shell 和 spark-submit sbin 包含 sbin/start-master.sh:在机器上启动一个master实例 sbin/start-s
阅读全文
|