上一页 1 ··· 46 47 48 49 50 51 52 53 54 ··· 234 下一页

2021年2月2日

一位大龄程序员所经历的面试的历炼和思考

摘要: 引子准备工作面试历炼小结 从每一段经历中学习,在每一件事情中修行。善于从失败中学习。 引子 我今年 36 岁,已有 8 年 JAVA 开发经验。在阿里云三年半,有赞四年半,已是标准的大龄程序员了。 在多年的读书、学习和思考中,我的价值观、人生观和世界观也逐步塑造成型。我意识到自己的志趣在于做教育文化 阅读全文

posted @ 2021-02-02 11:46 ExplorerMan 阅读(243) 评论(0) 推荐(0)

2021年2月1日

Spark Streaming简介及原理

摘要: 简介: SparkStreaming是一套框架。 SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。 支持多种数据源获取数据: Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后,处理结 阅读全文

posted @ 2021-02-01 19:07 ExplorerMan 阅读(286) 评论(0) 推荐(0)

Spark 以及 spark streaming 核心原理及实践

摘要: 阅读目录 Spark 特点 Spark的适用场景 Spark成功案例 导语 spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验 阅读全文

posted @ 2021-02-01 19:06 ExplorerMan 阅读(356) 评论(0) 推荐(0)

Spark executor中task的数量与最大并发数

摘要: 每个task处理一个partition,一个文件的大小/128M就是task的数量 Task的最大并发数 当task被提交到executor之后,会根据executor可用的cpu核数,决定一个executor中最多同时运行多少个task。 默认情况下一个task对应cpu的一个核。如果一个exec 阅读全文

posted @ 2021-02-01 18:54 ExplorerMan 阅读(3353) 评论(0) 推荐(0)

如何在Spark集群的work节点上启动多个Executor?

摘要: 如何在Spark集群的work节点上启动多个Executor? 默认情况下,Spark集群下的worker,只会启动一个Executor,只运行了一个 CoarseGrainedExecutorBackend 进程。Worker 通过持有 ExecutorRunner 对象来控制 CoarseGra 阅读全文

posted @ 2021-02-01 18:41 ExplorerMan 阅读(1014) 评论(0) 推荐(0)

Spark 外部变量和BroadCast变量的区别

摘要: spark里面算子里面使用外部变量和BroadCast变量的区别: 1、如果在算子里面使用外部变量,spark会将外部变量复制多个副本,通过网络传输到每一个task里面去(也就是说,此时的外部变量是task级别的) 2、BroadCast变量,使用spark的广播功能进行广播,广播之后保障每个exe 阅读全文

posted @ 2021-02-01 18:32 ExplorerMan 阅读(218) 评论(0) 推荐(0)

Spark 广播变量(broadcast)更新方法

摘要: Spark 广播变量(broadcast)更新方法更新方法spark 广播变量可以通过unpersist方法删除,然后重新广播 1 2 3 4 5 6 7 val map = sc.textFile("/test.txt").map(line => { val arr = line.split(", 阅读全文

posted @ 2021-02-01 17:54 ExplorerMan 阅读(350) 评论(0) 推荐(0)

fold()操作和reduce()操作的区别

摘要: reduce()——规约操作,包含reduceLeft()和reduceRight()两种操作。 fold()——折叠操作,包含foldLeft()和foldRight()两种操作。 两者功能相似,不同之处在于: fold()操作需要从一个初始值开始,并以该值作为上下文,处理集合中的每个元素。 re 阅读全文

posted @ 2021-02-01 17:26 ExplorerMan 阅读(388) 评论(0) 推荐(0)

flatmap和MapPartition和Map的区别

摘要: 背景 map和flatmap,从字面意思或者官网介绍,可能会给一些人在理解上造成困扰【包括本人】,所以今天专门花时间来分析,现整理如下: 首先做一下名词解释 我的理解 map:map方法返回的是一个object,map将流中的当前元素替换为此返回值; flatMap:flatMap方法返回的是一个s 阅读全文

posted @ 2021-02-01 17:12 ExplorerMan 阅读(481) 评论(0) 推荐(0)

pyspark教程

摘要: Apache Spark是用 Scala编程语言 编写的。为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。使用PySpark,您也可以使用Python编程语言中的 RDD 。正是由于一个名为 Py4j 的库,他们才能实现这一目标。 它将创建一个目录 spa 阅读全文

posted @ 2021-02-01 15:22 ExplorerMan 阅读(1482) 评论(0) 推荐(0)

上一页 1 ··· 46 47 48 49 50 51 52 53 54 ··· 234 下一页

导航