随笔分类 - Spark
摘要:前提: 1.已经安装好spark。我的是spark2.2.0。 2.已经有python环境,我这边使用的是python3.6。 一、安装py4j 使用pip,运行如下命令: 使用conda,运行如下命令: 二、使用pycharm创建一个project。 创建过程中选择python的环境。进入之后点击
阅读全文
摘要:1.spark submit参数 For example: In client mode: 最近一直测试spark程序,对spark-submit的参数进行了调节。 通过上面图片可以看到,总共有7个节点,总共的VCores为133,总共内存为1.49TB,有3个application在运行,2个分别
阅读全文
摘要:1.局部向量 Mllib支持2种局部向量类型:密集向量(dense)和稀疏向量(sparse)。 密集向量由double类型的数组支持,而稀疏向量则由两个平行数组支持。 example: 向量(5.2,0.0,5.5) 密集向量表示:[5.2,0.0,5.5] 稀疏向量表示:(3,[0,2],[5.
阅读全文
摘要:Spark1.6.2.2.3 PCA 算法介绍: 主成分分析是一种统计学方法,它使用正交转换从一系列可能相关的变量中提取线性无关变量集,提取出的变量集中的元素称为主成分。使用PCA方法可以对变量集合进行降维。下面的示例将会展示如何将5维特征向量转换为3维主成分向量。 scala代码 由于是spark
阅读全文
摘要:1.Wordcount.scala(本地模式) 上述代码是基于IDEA运行的本地模式。 wordcount.txt 运行结果: 2.打成jar上传集群代码
阅读全文

浙公网安备 33010602011771号