随笔分类 - spark
摘要:1. Hadoop之常见压缩格式以及性能对比 1.压缩的好处和坏处 好处 减少存储磁盘空间 降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度 坏处 由于使用数据时,需要先将数据解压,加重CPU负荷。而且压缩的越狠,耗费的时间越多。 2.压缩格式 压缩格式
阅读全文
摘要:方案一:使用functions里面的monotonically_increasing_id(),生成单调递增,不保证连续,最大64bit,的一列.分区数不变。 import org.apache.spark.sql.functions._ val df1 = spark.range(0,1000).
阅读全文
摘要:repartitionAndSortWithinPartitions是Spark官网推荐的一个算子,官方建议,如果需要在repartition重分区之后,还要进行sort 排序,建议直接使用repartitionAndSortWithinPartitions算子。因为该算子可以一边进行重分区的shu
阅读全文
摘要:1.spark textFile读取File 1.1 简单读取文件 1.2 正则模式读取文件 2.spark textFile读取多个File 2.1 将多个文件变成一个 list 作为参数 正确写法:sc.TextFile( filename1 + "," + filename2 + "," +
阅读全文
摘要:一、参数说明 启动Spark任务时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 会看到不停地上传jar,非常耗时;使用spark.yarn.archive可以大大地减少任务的启动时间,整个处理过程如下。 二、spark.yarn.archive使用 1.在本
阅读全文
摘要:Spark中的多任务处理 Spark的一个非常常见的用例是并行运行许多作业。 构建作业DAG后,Spark将这些任务分配到多个Executor上并行处理。但这并不能帮助我们在同一个Spark应用程序中同时运行两个完全独立的作业,例如同时从多个数据源读取数据并将它们写到对应的存储,或同时处理多个文件等
阅读全文
摘要:本文针对spark 2.0+版本 概述 spark 提供了一系列整个任务生命周期中各个阶段变化的事件监听机制,通过这一机制可以在任务的各个阶段做一些自定义的各种动作。SparkListener便是这些阶段的事件监听接口类 通过实现这个类中的各种方法便可实现自定义的事件处理动作。 自定义示例代码 主函
阅读全文
摘要:第一种方式:打包到jar应用程序 操作:将第三方jar文件打包到最终形成的spark应用程序jar文件中 应用场景:第三方jar文件比较小,应用的地方比较少 第二种方式:spark-submit 参数 --jars 操作:使用spark-submit提交命令的参数: --jars 要求: 1、使用s
阅读全文