spark - 随笔分类 - moonlight.ml

spark基准测试-BigDataBenchs

摘要：https://blog.csdn.net/haoxiaoyan/article/details/53895068 阅读全文

posted @ 2019-01-14 15:42 moonlight.ml 阅读(593) 评论(0) 推荐(0)

spark性能测试理论-Benchmark（转）

摘要：一、Benchmark简介Benchmark是一个评价方式，在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became more difficult to compare the performance of var 阅读全文

posted @ 2019-01-14 15:16 moonlight.ml 阅读(2891) 评论(0) 推荐(0)

在线matlab网站

摘要：网址： http://octave-online.net/ 使用：阅读全文

posted @ 2019-01-08 14:52 moonlight.ml 阅读(4061) 评论(0) 推荐(1)

spark-wordcount-sample算子测试

摘要：import org.apache.spark.{SparkConf, SparkContext} object radomSampleU { def main(args: Array[String]) { val conf = new SparkConf().setAppName("WordCount_groupBy") .setMaster("local") ... 阅读全文

posted @ 2019-01-04 17:17 moonlight.ml 阅读(510) 评论(0) 推荐(0)

Spark-水库抽样-根据抽样率确定每个分区的样本大小

摘要：/* * 输入：采样率，待采样的RDD * 输出：每个分区的样本大小（记录数） * 由采样率确定，每个分区的样本大小 */ def findNumPerPartition[T: ClassTag, U: ClassTag](sampleRate : Double, rddNum : RDD[T]): Int ={ //RDD总记录数 val numRdd=rddNum... 阅读全文

posted @ 2019-01-04 17:04 moonlight.ml 阅读(345) 评论(0) 推荐(0)

spark中产生shuffle的算子

摘要：Spark中产生shuffle的算子作用算子名能否替换，由谁替换去重 distinct() 不能聚合 reduceByKey() groupByKey groupBy() groupByKey() reduceByKey aggregateByKey() combineByKey() 排序阅读全文

posted @ 2018-11-23 11:40 moonlight.ml 阅读(596) 评论(0) 推荐(0)

spark性能调优--jvm调优（转）

摘要：一.问题切入调用spark 程序的时候，在获取数据库连接的时候总是报内存溢出错误（在ideal上运行的时候设置jvm参数 -Xms512m -Xmx1024m -XX:PermSize=512m -XX:MaxPermSize=1024M，不会报错）二.jvm参数和 saprk 参数和阅读全文

posted @ 2018-11-05 11:32 moonlight.ml 阅读(1279) 评论(0) 推荐(0)

JVM内存区域参数配置

摘要：转自：https://www.jianshu.com/p/5946c0a414b5 需要提前了解的知识点： JVM内存模型 JVM垃圾回收算法下图是JVM内存区域划分的逻辑图 JVM内存区域逻辑图从图中我们大概了解JVM相关的内存区域。 JVM内存包括区域 Heap（堆区） New Genera 阅读全文

posted @ 2018-11-03 21:27 moonlight.ml 阅读(301) 评论(0) 推荐(0)

spark调优-内存和GC调优（官网）

只有注册用户登录后才能阅读该文。

posted @ 2018-11-03 20:55 moonlight.ml 阅读(4) 评论(0) 推荐(0)

spark调优-硬件配置条件

只有注册用户登录后才能阅读该文。

posted @ 2018-11-03 19:15 moonlight.ml 阅读(2) 评论(0) 推荐(0)

spark性能优化-JVM虚拟机垃圾回收调优

摘要：1 2 3 4 阅读全文

posted @ 2018-10-30 22:53 moonlight.ml 阅读(285) 评论(0) 推荐(0)

031_spark架构原理

摘要：spark核心组件 driver master worker executor task(只有task是线程）核心组件的原理图解阅读全文

posted @ 2018-10-29 11:02 moonlight.ml 阅读(182) 评论(0) 推荐(0)

spark on yarn模式下内存资源管理（笔记2）

摘要：1.spark 2.2内存占用计算公式 https://blog.csdn.net/lingbo229/article/details/80914283 2.spark on yarn内存分配** 本文转自：http://blog.javachen.com/2015/06/09/memory-in- 阅读全文

posted @ 2018-10-22 22:56 moonlight.ml 阅读(853) 评论(0) 推荐(0)

wordcount

只有注册用户登录后才能阅读该文。

posted @ 2018-10-16 19:08 moonlight.ml 阅读(4) 评论(0) 推荐(0)

spark-submit运行脚本

只有注册用户登录后才能阅读该文。

posted @ 2018-10-16 15:34 moonlight.ml 阅读(4) 评论(0) 推荐(0)

鸢尾花数据集-iris.data

摘要：iris.data 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 阅读全文

posted @ 2018-10-15 23:56 moonlight.ml 阅读(1513) 评论(0) 推荐(1)

预测房价实验-房价数据集

摘要：house.csv 阅读全文

posted @ 2018-10-15 23:53 moonlight.ml 阅读(1226) 评论(0) 推荐(0)

spark测试脚本-笔记

摘要：1）Spark配置&启动脚本分析 http://www.cnblogs.com/riordon/p/5732208.html 阅读全文

posted @ 2018-10-15 11:17 moonlight.ml 阅读(238) 评论(0) 推荐(0)

掌握Spark机器学习库-09.6-LDA算法

摘要：数据集 iris.data 数据集概览代码输出结果阅读全文

posted @ 2018-10-15 11:01 moonlight.ml 阅读(343) 评论(0) 推荐(0)

掌握Spark机器学习库-09.3-kmeans算法实现分类

摘要：数据集 iris.data 数据集概览代码输出结果阅读全文

posted @ 2018-10-15 10:49 moonlight.ml 阅读(279) 评论(0) 推荐(0)

随笔分类 - spark

spark基准测试-BigDataBenchs

spark性能测试理论-Benchmark（转）

在线matlab网站

spark-wordcount-sample算子测试

Spark-水库抽样-根据抽样率确定每个分区的样本大小

spark中产生shuffle的算子

spark性能调优--jvm调优（转）

JVM内存区域参数配置

spark调优-内存和GC调优（官网）

spark调优-硬件配置条件

spark性能优化-JVM虚拟机垃圾回收调优

031_spark架构原理

spark on yarn模式下内存资源管理（笔记2）

wordcount

spark-submit运行脚本

鸢尾花数据集-iris.data

预测房价实验-房价数据集

spark测试脚本-笔记

掌握Spark机器学习库-09.6-LDA算法

掌握Spark机器学习库-09.3-kmeans算法实现分类

导航

公告