上一页 1 2 3 4 5 6 ··· 56 下一页

2021年1月7日

摘要: 1.将mysql压缩包拷贝到/usr/local/目录下:cd /usr/localrz mysql-5.7.21-linux-glibc2.12-x86_64.tar.gz 2. 解压,并重命名tar -zxvf mysql-5.7.21-linux-glibc2.12-x86_64.tar.gz 阅读全文
posted @ 2021-01-07 14:13 happygril3 阅读(61) 评论(0) 推荐(0)

2021年1月5日

摘要: Scala语言中,foldLeft函数的三个使用场景: 列表内数值的相加,作用相当于sum; List(1,7,2,9).foldLeft(0)(_-_) (1)List从左开始 (2)结果在左面 0-1 (0-1)-7 ((0-1)-7)-2 (((0-1)-7)-2)-9 List(1,7,2, 阅读全文
posted @ 2021-01-05 09:11 happygril3 阅读(120) 评论(0) 推荐(0)

2021年1月4日

摘要: package spark2021 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.rdd.RDD object Ordered_Test { def main(args: Array[String] 阅读全文
posted @ 2021-01-04 19:02 happygril3 阅读(62) 评论(0) 推荐(0)
摘要: scala中的for循环有个独有的特性,他是有返回值的。这个与java不同 针对每一次 for 循环的迭代, yield 会产生一个值,被循环记录下来 (内部实现上,像是一个缓冲区). 当循环结束后, 会返回所有 yield 的值组成的集合.返回集合的类型与被遍历的集合类型是一致的. package 阅读全文
posted @ 2021-01-04 15:33 happygril3 阅读(126) 评论(0) 推荐(0)
摘要: sorted:适合单集合的升降序 sortBy:适合对单个或多个属性的排序,代码量比较少,推荐使用这种 sortWith:适合定制化场景比较高的排序规则,比较灵活,也能支持单个或多个属性的排序,但代码量稍多,内部实际是通过java里面的Comparator接口来完成排序的。 package spar 阅读全文
posted @ 2021-01-04 15:02 happygril3 阅读(169) 评论(0) 推荐(0)

2020年12月31日

摘要: 在执行Spark的应用程序时,Spark集群会启动Driver和Executor两种JVM进程,前者为主控进程,后者负责执行具体的计算任务。 由于Driver的内存管理相对简单,本文主要对Executor的内存管理进行分析,下文中的Spark内存均特指Executor的内存。 1.堆内存和堆外内存 阅读全文
posted @ 2020-12-31 17:15 happygril3 阅读(166) 评论(0) 推荐(0)
摘要: 1.Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。 因为在分布式情 阅读全文
posted @ 2020-12-31 14:53 happygril3 阅读(849) 评论(0) 推荐(0)
摘要: 1.任务调度 (1)在使用spark-summit或者spark-shell提交spark程序后,根据提交时指定(deploy-mode)的位置,创建driver进程,driver进程根据sparkconf中的配置,初始化sparkcontext。Sparkcontext的启动后,创建DAG Sch 阅读全文
posted @ 2020-12-31 09:47 happygril3 阅读(277) 评论(0) 推荐(0)

2020年12月30日

摘要: Spark 内核泛指 Spark 的核心运行机制,包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理。 1、Spark核心组件 1.1 Driver Spark 驱动器节点,用于执行 Spark 任务中的 main 方法,负责实际 阅读全文
posted @ 2020-12-30 10:22 happygril3 阅读(199) 评论(0) 推荐(0)

2020年12月28日

摘要: checkpoint 检查点是很多分布式系统的常用容错容灾机制,其本质就是将系统运行时的内存数据结构和状态持久化到磁盘上,在需要的时候对这些数据进行读取,然后重新构造出运行时的状态。 在Spark中使用检查点就是为了将RDD的状态保存下来,在重新执行时就不需要计算,直接从检查点读取即可 1.什么时候 阅读全文
posted @ 2020-12-28 16:48 happygril3 阅读(551) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 56 下一页

导航