11 2020 档案
摘要:1. 堆内和堆外内存规划 1.1 堆内内存 堆内内存的大小,由 Spark 应用程序启动时的 –executor-memory 或 spark.executor.memory 参数配置。Executor 内运行的并发任务共享 JVM 堆内内存,这些任务在缓存 RDD 数据和广播(Broadcast)
        阅读全文
                
摘要:推测执行机制 推测任务是指对于一个Stage里面拖后腿的Task,会在其他节点的Executor上再次启动这个task,如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果,同时会干掉其他Executor上运行的实例。spark推测式执行默认是关闭的,可通过spark.s
        阅读全文
                
摘要:工作之余会总结一些细小的知识点,但又不至于发一篇博客,以后将细小的知识点积累供自己备忘; 主要分为两个模块: python基础知识、Linux知识、python编程题 一 、Python 1.正则中group()、group(0)、group(1)、groups()的区别?. 结论:group取索引
        阅读全文
                
摘要:一、基本介绍 是什么? 快速,通用,可扩展的分布式计算引擎。 弹性分布式数据集RDD RDD(Resilient Distributed Dataset)弹性分布式数据集,是Spark中最基本的数据(逻辑)抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD具有数据流模型的特点:自动
        阅读全文
                
摘要:1. 条件 使用where子句对表中的数据筛选,结果为true的行会出现在结果集中 语法如下: select * from 表名 where 条件; 例: select * from students where id=1; where后面支持多种运算符,进行条件的处理 比较运算符 逻辑运算符 模糊
        阅读全文
                
摘要:需求:使用pyspark计算相同key的最大值、最小值、平均值 说明: 最大值和最小值好计算,直接reduceByKey后使用python内置的max、min方法 平均值计算提供两种计算方法,直接先上代码和运行结果,后面有代码记录 def main(): sc = SparkContext(conf
        阅读全文
                
                    
                
浙公网安备 33010602011771号