happygril3

mysql

摘要： 1.将mysql压缩包拷贝到/usr/local/目录下:cd /usr/localrz mysql-5.7.21-linux-glibc2.12-x86_64.tar.gz 2. 解压,并重命名tar -zxvf mysql-5.7.21-linux-glibc2.12-x86_64.tar.gz 阅读全文

posted @ 2021-01-07 14:13 happygril3 阅读(61) 评论(0) 推荐(0)

foldLeft

摘要： Scala语言中，foldLeft函数的三个使用场景：列表内数值的相加，作用相当于sum; List(1,7,2,9).foldLeft(0)(_-_) （1）List从左开始（2）结果在左面 0-1 (0-1)-7 ((0-1)-7)-2 (((0-1)-7)-2)-9 List(1,7,2, 阅读全文

posted @ 2021-01-05 09:11 happygril3 阅读(120) 评论(0) 推荐(0)

自定义sort

摘要： package spark2021 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.rdd.RDD object Ordered_Test { def main(args: Array[String] 阅读全文

posted @ 2021-01-04 19:02 happygril3 阅读(62) 评论(0) 推荐(0)

yield

摘要： scala中的for循环有个独有的特性，他是有返回值的。这个与java不同针对每一次 for 循环的迭代, yield 会产生一个值，被循环记录下来 (内部实现上，像是一个缓冲区). 当循环结束后, 会返回所有 yield 的值组成的集合.返回集合的类型与被遍历的集合类型是一致的. package 阅读全文

posted @ 2021-01-04 15:33 happygril3 阅读(126) 评论(0) 推荐(0)

sort

摘要： sorted：适合单集合的升降序 sortBy：适合对单个或多个属性的排序，代码量比较少，推荐使用这种 sortWith：适合定制化场景比较高的排序规则，比较灵活，也能支持单个或多个属性的排序，但代码量稍多，内部实际是通过java里面的Comparator接口来完成排序的。 package spar 阅读全文

posted @ 2021-01-04 15:02 happygril3 阅读(169) 评论(0) 推荐(0)

内存机制

摘要：在执行Spark的应用程序时，Spark集群会启动Driver和Executor两种JVM进程，前者为主控进程，后者负责执行具体的计算任务。由于Driver的内存管理相对简单，本文主要对Executor的内存管理进行分析，下文中的Spark内存均特指Executor的内存。 1.堆内存和堆外内存阅读全文

posted @ 2020-12-31 17:15 happygril3 阅读(166) 评论(0) 推荐(0)

shuffle解析

摘要： 1.Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情阅读全文

posted @ 2020-12-31 14:53 happygril3 阅读(849) 评论(0) 推荐(0)

任务划分

摘要： 1.任务调度（1）在使用spark-summit或者spark-shell提交spark程序后，根据提交时指定（deploy-mode）的位置，创建driver进程，driver进程根据sparkconf中的配置，初始化sparkcontext。Sparkcontext的启动后，创建DAG Sch 阅读全文

posted @ 2020-12-31 09:47 happygril3 阅读(277) 评论(0) 推荐(0)

核心组件

摘要： Spark 内核泛指 Spark 的核心运行机制，包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理。 1、Spark核心组件 1.1 Driver Spark 驱动器节点，用于执行 Spark 任务中的 main 方法，负责实际阅读全文

posted @ 2020-12-30 10:22 happygril3 阅读(199) 评论(0) 推荐(0)

checkPoint

摘要： checkpoint 检查点是很多分布式系统的常用容错容灾机制，其本质就是将系统运行时的内存数据结构和状态持久化到磁盘上，在需要的时候对这些数据进行读取，然后重新构造出运行时的状态。在Spark中使用检查点就是为了将RDD的状态保存下来，在重新执行时就不需要计算，直接从检查点读取即可 1.什么时候阅读全文

posted @ 2020-12-28 16:48 happygril3 阅读(551) 评论(0) 推荐(0)

导航

公告