07 2021 档案
摘要:原文链接: https://blog.knoldus.com/spark-type-safety-in-dataset-vs-dataframe/ 基于类型安全特性,编程语言可以避免类型错误,或者说编译器会在编译时检查类型安全然后在遇到错误的类型赋值时会抛出错误。Spark,一个为大数据处理为生的统
阅读全文
摘要:如何指定schema 代码如下: package com.github.ralgond.sparkjavaapi.sql; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.
阅读全文
摘要:代码如下: package com.github.ralgond.sparkjavaapi.sql; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.S
阅读全文
摘要:本文介紹如何基于Spark和Java来计算PageRan。我们为以下图求解PageRank: 创建工程 创建一个Maven工程,pom.xml文件如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.
阅读全文
摘要:本文介紹如何基于Spark和Java来计算每个key的value的平均值 创建工程 创建一个Maven工程,pom.xml文件如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/200
阅读全文
摘要:原文链接: https://0x0fff.com/spark-architecture-shuffle 如上图所示,橙色箭头表示shuffle阶段,箭头的起始端称为mapper端,箭头结束端称为reducer。 在Spark中,有多种shuffle的实现,它取决于参数spark.shuffle.ma
阅读全文
摘要:原文链接: https://0x0fff.com/spark-memory-management/ 这篇文章描述Spark的1.6版本之后的内存管理模型,其代码实现是类UnifiedMemoryManager。 长话短说,Spark的内存管理看上去是像下面这样子: 根据上图,你可以看到3个主要区域:
阅读全文
摘要:情况1,ShuffledRDD只有一个父RDD 假设有一个RDD是这么生成的: SparkConf conf = new SparkConf().setAppName("TryPartition Application"); JavaSparkContext sc = new JavaSparkCo
阅读全文

浙公网安备 33010602011771号