会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ralgo
博客园
首页
新随笔
联系
订阅
管理
1
2
3
4
5
···
8
下一页
2021年7月30日
Spark(七)Dataset与DataFrame的类型安全性
摘要: 原文链接: https://blog.knoldus.com/spark-type-safety-in-dataset-vs-dataframe/ 基于类型安全特性,编程语言可以避免类型错误,或者说编译器会在编译时检查类型安全然后在遇到错误的类型赋值时会抛出错误。Spark,一个为大数据处理为生的统
阅读全文
posted @ 2021-07-30 16:29 ralgo
阅读(310)
评论(0)
推荐(0)
2021年7月25日
Spark SQL(二)关于schema
摘要: 如何指定schema 代码如下: package com.github.ralgond.sparkjavaapi.sql; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.
阅读全文
posted @ 2021-07-25 19:15 ralgo
阅读(556)
评论(0)
推荐(0)
Spark SQL(一)DataFrame对string类型列进行加1操作
摘要: 代码如下: package com.github.ralgond.sparkjavaapi.sql; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.S
阅读全文
posted @ 2021-07-25 15:21 ralgo
阅读(568)
评论(0)
推荐(0)
2021年7月23日
Spark和Java API(七)计算PageRank
摘要: 本文介紹如何基于Spark和Java来计算PageRan。我们为以下图求解PageRank: 创建工程 创建一个Maven工程,pom.xml文件如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.
阅读全文
posted @ 2021-07-23 16:12 ralgo
阅读(162)
评论(0)
推荐(0)
2021年7月22日
Spark和Java API(六)求平均值
摘要: 本文介紹如何基于Spark和Java来计算每个key的value的平均值 创建工程 创建一个Maven工程,pom.xml文件如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/200
阅读全文
posted @ 2021-07-22 16:35 ralgo
阅读(222)
评论(0)
推荐(0)
2021年7月19日
Spark(六)Shuffle
摘要: 原文链接: https://0x0fff.com/spark-architecture-shuffle 如上图所示,橙色箭头表示shuffle阶段,箭头的起始端称为mapper端,箭头结束端称为reducer。 在Spark中,有多种shuffle的实现,它取决于参数spark.shuffle.ma
阅读全文
posted @ 2021-07-19 13:53 ralgo
阅读(144)
评论(0)
推荐(0)
2021年7月16日
Spark(五)内存管理
摘要: 原文链接: https://0x0fff.com/spark-memory-management/ 这篇文章描述Spark的1.6版本之后的内存管理模型,其代码实现是类UnifiedMemoryManager。 长话短说,Spark的内存管理看上去是像下面这样子: 根据上图,你可以看到3个主要区域:
阅读全文
posted @ 2021-07-16 12:00 ralgo
阅读(235)
评论(0)
推荐(0)
2021年7月10日
Spark和Java API(五)Shuffle后Reduce端的分区数
摘要: 情况1,ShuffledRDD只有一个父RDD 假设有一个RDD是这么生成的: SparkConf conf = new SparkConf().setAppName("TryPartition Application"); JavaSparkContext sc = new JavaSparkCo
阅读全文
posted @ 2021-07-10 16:58 ralgo
阅读(180)
评论(0)
推荐(0)
2021年6月29日
Spark(四)为什么说RDD的惰性计算(lazy)有道理
摘要: 来源:《Spark快速大数据分析》 例子1,读取文件: >>> lines = sc.textFile("README.md") 例子2,过滤数据: >>> pythonLines = lines.filter(lambda line: "Python" in line) 例子3:调用first()
阅读全文
posted @ 2021-06-29 14:32 ralgo
阅读(535)
评论(0)
推荐(0)
2021年6月28日
Spark(三)模仿Spark实现Java发送一个类到服务端(Executor)运行
摘要: 我们知道Spark可以发送一个函数到Executor,Executor然后会加载并这个函数,然后在JVM中运行。本文用简单的例子模拟了这个过程。 工程和类的关系 我们一共有3个maven工程: remotecall-base,包含一个Task接口,Task接口有一个方法是run。 remotecal
阅读全文
posted @ 2021-06-28 18:31 ralgo
阅读(141)
评论(0)
推荐(0)
1
2
3
4
5
···
8
下一页
公告