随笔分类 -  spark

spark基准测试-BigDataBenchs
摘要:https://blog.csdn.net/haoxiaoyan/article/details/53895068 阅读全文

posted @ 2019-01-14 15:42 moonlight.ml 阅读(593) 评论(0) 推荐(0)

spark性能测试理论-Benchmark(转)
摘要:一、Benchmark简介Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became more difficult to compare the performance of var 阅读全文

posted @ 2019-01-14 15:16 moonlight.ml 阅读(2891) 评论(0) 推荐(0)

在线matlab网站
摘要:网址: http://octave-online.net/ 使用: 阅读全文

posted @ 2019-01-08 14:52 moonlight.ml 阅读(4061) 评论(0) 推荐(1)

spark-wordcount-sample算子测试
摘要:import org.apache.spark.{SparkConf, SparkContext} object radomSampleU { def main(args: Array[String]) { val conf = new SparkConf().setAppName("WordCount_groupBy") .setMaster("local") ... 阅读全文

posted @ 2019-01-04 17:17 moonlight.ml 阅读(510) 评论(0) 推荐(0)

Spark-水库抽样-根据抽样率确定每个分区的样本大小
摘要:/* * 输入:采样率,待采样的RDD * 输出:每个分区的样本大小(记录数) * 由采样率确定,每个分区的样本大小 */ def findNumPerPartition[T: ClassTag, U: ClassTag](sampleRate : Double, rddNum : RDD[T]): Int ={ //RDD总记录数 val numRdd=rddNum... 阅读全文

posted @ 2019-01-04 17:04 moonlight.ml 阅读(345) 评论(0) 推荐(0)

spark中产生shuffle的算子
摘要:Spark中产生shuffle的算子 作用 算子名 能否替换,由谁替换 去重 distinct() 不能 聚合 reduceByKey() groupByKey groupBy() groupByKey() reduceByKey aggregateByKey() combineByKey() 排序 阅读全文

posted @ 2018-11-23 11:40 moonlight.ml 阅读(596) 评论(0) 推荐(0)

spark性能调优--jvm调优(转)
摘要:一.问题切入 调用spark 程序的时候,在获取数据库连接的时候总是报 内存溢出 错误 (在ideal上运行的时候设置jvm参数 -Xms512m -Xmx1024m -XX:PermSize=512m -XX:MaxPermSize=1024M,不会报错) 二.jvm参数 和 saprk 参数 和 阅读全文

posted @ 2018-11-05 11:32 moonlight.ml 阅读(1279) 评论(0) 推荐(0)

JVM内存区域参数配置
摘要:转自:https://www.jianshu.com/p/5946c0a414b5 需要提前了解的知识点: JVM内存模型 JVM垃圾回收算法 下图是JVM内存区域划分的逻辑图 JVM内存区域逻辑图 从图中我们大概了解JVM相关的内存区域。 JVM内存包括区域 Heap(堆区) New Genera 阅读全文

posted @ 2018-11-03 21:27 moonlight.ml 阅读(301) 评论(0) 推荐(0)

spark调优-内存和GC调优(官网)
只有注册用户登录后才能阅读该文。

posted @ 2018-11-03 20:55 moonlight.ml 阅读(4) 评论(0) 推荐(0)

spark调优-硬件配置条件
只有注册用户登录后才能阅读该文。

posted @ 2018-11-03 19:15 moonlight.ml 阅读(2) 评论(0) 推荐(0)

spark性能优化-JVM虚拟机垃圾回收调优
摘要:1 2 3 4 阅读全文

posted @ 2018-10-30 22:53 moonlight.ml 阅读(285) 评论(0) 推荐(0)

031_spark架构原理
摘要:spark核心组件 driver master worker executor task(只有task是线程) 核心组件的原理图解 阅读全文

posted @ 2018-10-29 11:02 moonlight.ml 阅读(182) 评论(0) 推荐(0)

spark on yarn模式下内存资源管理(笔记2)
摘要:1.spark 2.2内存占用计算公式 https://blog.csdn.net/lingbo229/article/details/80914283 2.spark on yarn内存分配** 本文转自:http://blog.javachen.com/2015/06/09/memory-in- 阅读全文

posted @ 2018-10-22 22:56 moonlight.ml 阅读(853) 评论(0) 推荐(0)

wordcount
只有注册用户登录后才能阅读该文。

posted @ 2018-10-16 19:08 moonlight.ml 阅读(4) 评论(0) 推荐(0)

spark-submit运行脚本
只有注册用户登录后才能阅读该文。

posted @ 2018-10-16 15:34 moonlight.ml 阅读(4) 评论(0) 推荐(0)

鸢尾花数据集-iris.data
摘要:iris.data 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 阅读全文

posted @ 2018-10-15 23:56 moonlight.ml 阅读(1513) 评论(0) 推荐(1)

预测房价实验-房价数据集
摘要:house.csv 阅读全文

posted @ 2018-10-15 23:53 moonlight.ml 阅读(1226) 评论(0) 推荐(0)

spark测试脚本-笔记
摘要:1)Spark配置&启动脚本分析 http://www.cnblogs.com/riordon/p/5732208.html 阅读全文

posted @ 2018-10-15 11:17 moonlight.ml 阅读(238) 评论(0) 推荐(0)

掌握Spark机器学习库-09.6-LDA算法
摘要:数据集 iris.data 数据集概览 代码 输出结果 阅读全文

posted @ 2018-10-15 11:01 moonlight.ml 阅读(343) 评论(0) 推荐(0)

掌握Spark机器学习库-09.3-kmeans算法实现分类
摘要:数据集 iris.data 数据集概览 代码 输出结果 阅读全文

posted @ 2018-10-15 10:49 moonlight.ml 阅读(279) 评论(0) 推荐(0)

导航