2020 年 11月随笔档案 - skaarl

spark内存管理这一篇就够了

摘要：1. 堆内和堆外内存规划 1.1 堆内内存堆内内存的大小，由 Spark 应用程序启动时的 –executor-memory 或 spark.executor.memory 参数配置。Executor 内运行的并发任务共享 JVM 堆内内存，这些任务在缓存 RDD 数据和广播（Broadcast）阅读全文

posted @ 2020-11-13 22:04 skaarl 阅读(1477) 评论(2) 推荐(1)

spark推测机制及参数设置

摘要：推测执行机制推测任务是指对于一个Stage里面拖后腿的Task，会在其他节点的Executor上再次启动这个task，如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果，同时会干掉其他Executor上运行的实例。spark推测式执行默认是关闭的，可通过spark.s 阅读全文

posted @ 2020-11-12 22:13 skaarl 阅读(2985) 评论(0) 推荐(0)

python易错点、面试点汇总，不定期更新

摘要：工作之余会总结一些细小的知识点，但又不至于发一篇博客，以后将细小的知识点积累供自己备忘；主要分为两个模块： python基础知识、Linux知识、python编程题一、Python 1.正则中group()、group(0)、group(1)、groups()的区别？. 结论：group取索引阅读全文

posted @ 2020-11-11 22:08 skaarl 阅读(529) 评论(0) 推荐(0)

Spark架构与原理这一篇就够了

摘要：一、基本介绍是什么？快速，通用，可扩展的分布式计算引擎。弹性分布式数据集RDD RDD（Resilient Distributed Dataset）弹性分布式数据集，是Spark中最基本的数据（逻辑）抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD具有数据流模型的特点：自动阅读全文

posted @ 2020-11-11 20:01 skaarl 阅读(5852) 评论(0) 推荐(4)

MySQL查询这一篇就够了

摘要：1. 条件使用where子句对表中的数据筛选，结果为true的行会出现在结果集中语法如下： select * from 表名 where 条件; 例： select * from students where id=1; where后面支持多种运算符，进行条件的处理比较运算符逻辑运算符模糊阅读全文

posted @ 2020-11-09 22:02 skaarl 阅读(9279) 评论(2) 推荐(5)

pyspark计算最大值、最小值、平均值

摘要：需求：使用pyspark计算相同key的最大值、最小值、平均值说明：最大值和最小值好计算，直接reduceByKey后使用python内置的max、min方法平均值计算提供两种计算方法，直接先上代码和运行结果，后面有代码记录 def main(): sc = SparkContext(conf 阅读全文

posted @ 2020-11-05 20:17 skaarl 阅读(3923) 评论(0) 推荐(0)

skaarl

11 2020 档案

公告