11 2020 档案

摘要:1. 堆内和堆外内存规划 1.1 堆内内存 堆内内存的大小,由 Spark 应用程序启动时的 –executor-memory 或 spark.executor.memory 参数配置。Executor 内运行的并发任务共享 JVM 堆内内存,这些任务在缓存 RDD 数据和广播(Broadcast) 阅读全文
posted @ 2020-11-13 22:04 skaarl 阅读(1477) 评论(2) 推荐(1)
摘要:推测执行机制 推测任务是指对于一个Stage里面拖后腿的Task,会在其他节点的Executor上再次启动这个task,如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果,同时会干掉其他Executor上运行的实例。spark推测式执行默认是关闭的,可通过spark.s 阅读全文
posted @ 2020-11-12 22:13 skaarl 阅读(2985) 评论(0) 推荐(0)
摘要:工作之余会总结一些细小的知识点,但又不至于发一篇博客,以后将细小的知识点积累供自己备忘; 主要分为两个模块: python基础知识、Linux知识、python编程题 一 、Python 1.正则中group()、group(0)、group(1)、groups()的区别?. 结论:group取索引 阅读全文
posted @ 2020-11-11 22:08 skaarl 阅读(529) 评论(0) 推荐(0)
摘要:一、基本介绍 是什么? 快速,通用,可扩展的分布式计算引擎。 弹性分布式数据集RDD RDD(Resilient Distributed Dataset)弹性分布式数据集,是Spark中最基本的数据(逻辑)抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD具有数据流模型的特点:自动 阅读全文
posted @ 2020-11-11 20:01 skaarl 阅读(5852) 评论(0) 推荐(4)
摘要:1. 条件 使用where子句对表中的数据筛选,结果为true的行会出现在结果集中 语法如下: select * from 表名 where 条件; 例: select * from students where id=1; where后面支持多种运算符,进行条件的处理 比较运算符 逻辑运算符 模糊 阅读全文
posted @ 2020-11-09 22:02 skaarl 阅读(9279) 评论(2) 推荐(5)
摘要:需求:使用pyspark计算相同key的最大值、最小值、平均值 说明: 最大值和最小值好计算,直接reduceByKey后使用python内置的max、min方法 平均值计算提供两种计算方法,直接先上代码和运行结果,后面有代码记录 def main(): sc = SparkContext(conf 阅读全文
posted @ 2020-11-05 20:17 skaarl 阅读(3923) 评论(0) 推荐(0)