spark - 随笔分类 - 层林尽染

Spark SQL join的三种实现方式

摘要：引言 join是SQL中的常用操作，良好的表结构能够将数据分散到不同的表中，使其符合某种规范(mysql三大范式)，可以最大程度的减少数据冗余，更新容错等，而建立表和表之间关系的最佳方式就是join操作。对于Spark来说有3种Join的实现，每种Join对应的不同的应用场景(SparkSQL自动阅读全文

posted @ 2021-06-16 16:32 层林尽染阅读(855) 评论(0) 推荐(0)

Spark SQL 之 Join 实现

摘要：原文地址：Spark SQL 之 Join 实现 Join作为SQL中一个重要语法特性，几乎所有稍微复杂一点的数据分析场景都离不开Join，如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流，作为开发者，我们有必要了解Join在Spark中是如何组织运行阅读全文

posted @ 2019-03-14 21:37 层林尽染阅读(235) 评论(0) 推荐(0)

hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化

摘要：https://blog.csdn.net/u010697988/article/details/70173104 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark，mapReducehe和Spark之间的最大区别是前者较偏向于离线处理，而后者重视实现性，下面主阅读全文

posted @ 2019-01-12 14:15 层林尽染阅读(349) 评论(0) 推荐(0)

spark checkpoint详解

摘要：https://www.cnblogs.com/superhedantou/p/9004820.html checkpoint在spark中主要有两块应用：一块是在spark core中对RDD做checkpoint，可以切断做checkpoint RDD的依赖关系，将RDD数据保存到可靠存储（如H 阅读全文

posted @ 2018-08-27 15:40 层林尽染阅读(1890) 评论(0) 推荐(1)

整个shuffle的流程图

摘要：整个shuffle的流程图 Paste_Image.png Map Shuffle的作用以及相应的设置 partition 过程：输入的<key,value>对经过map()处理后输出新的<key,value>对，它首先会被存储到环形缓冲区中(字节数组实现)。该环形缓冲区的大小默认为100MB。并且阅读全文

posted @ 2018-05-11 10:59 层林尽染阅读(1494) 评论(0) 推荐(0)

idea配置spark运行模式

摘要：1. 配置运行参数： Menu -> Run -> Edit Configurations -> 选择 + -> Application -Dspark.master=local 参数配置如下： VM options: -Dspark.master=local代表使用本地模式运行Spark代码，也可阅读全文

posted @ 2018-02-24 09:33 层林尽染阅读(368) 评论(0) 推荐(0)

spark笔记

摘要：Spark的api运算函数分为两大类，Transformation和Action：Transformations是lazy evaluation的，调用他们只会被记录而不会被真正执行，只有遇到Actions，之前的Transformations才会被依次执行，这样的Delay Scheduling，阅读全文

posted @ 2018-01-22 10:02 层林尽染阅读(118) 评论(0) 推荐(0)

sparksql不支持hive中的分区名称大写

摘要：但是在hive中查询是可以的。后来经过一点一点测试发现，原来分区名称不能是大写，必须小写才行。阅读全文

posted @ 2018-01-18 14:44 层林尽染阅读(257) 评论(0) 推荐(0)

idea python notebook连接pyspark

摘要：1、启动pyspark 2、查看pyspark服务的token jupyter notebook list 查看正在运行的notebook服务以及他们的token 3、在idea里运行notebook文件，在提示输入token时输入token值阅读全文

posted @ 2017-12-15 22:58 层林尽染阅读(189) 评论(0) 推荐(0)

在windows上面安装并用jupyter运行pyspark

摘要：1，下载hadoop winutils 设置HADOOP_HOME 2、下载spark，设置SPARK_HOME，将%SPARK_HOME%/加入到PATH路径下 3、安装Anaconda 就是python及一些相关Python包，设置 4、设置PYTHON_HOME 5、设置PYSPARK_DRI 阅读全文

posted @ 2017-12-15 22:51 层林尽染阅读(841) 评论(0) 推荐(0)

spark读写mysql

摘要：spark读写mysql除官网例子外还要指定驱动名称阅读全文

posted @ 2017-12-15 20:10 层林尽染阅读(201) 评论(0) 推荐(0)

spark ml阅读笔记

摘要：参考文档：http://www.cnblogs.com/huliangwen/p/7491797.html 阅读全文

posted @ 2017-10-27 14:38 层林尽染阅读(92) 评论(0) 推荐(0)

spark源码编译，本地调试

摘要：1、下载源码 2、进入源码根据README.md编译源码，注意使用的是源码目录下的maven编译 3、用idea导入顶层pom文件 4、修改顶层pom文件和example下的pom文件，将scope的值全部从provided替换成compile 5、运行任意example，由于是本地运行，需要添加阅读全文

posted @ 2017-10-21 15:47 层林尽染阅读(276) 评论(0) 推荐(0)

搭建Spark源码研读和代码调试的开发环境

摘要：转载自https://github.com/linbojin/spark-notes/blob/master/ide-setup.md 搭建Spark源码研读和代码调试的开发环境工欲善其事，必先利其器，第一篇笔记介绍如何搭建源码研读和代码调试的开发环境。一些必要的开发工具，请自行提前安装： sc 阅读全文

posted @ 2017-06-11 15:12 层林尽染阅读(3412) 评论(0) 推荐(0)

层林尽染

随笔分类 - spark

导航

公告