随笔分类 -  spark

摘要:引言 join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操作。 对于Spark来说有3种Join的实现,每种Join对应的不同的应用场景(SparkSQL自动 阅读全文

posted @ 2021-06-16 16:32 层林尽染 阅读(855) 评论(0) 推荐(0)

摘要:原文地址:Spark SQL 之 Join 实现 Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spark中是如何组织运行 阅读全文

posted @ 2019-03-14 21:37 层林尽染 阅读(235) 评论(0) 推荐(0)

摘要:https://blog.csdn.net/u010697988/article/details/70173104 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主 阅读全文

posted @ 2019-01-12 14:15 层林尽染 阅读(349) 评论(0) 推荐(0)

摘要:https://www.cnblogs.com/superhedantou/p/9004820.html checkpoint在spark中主要有两块应用:一块是在spark core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如H 阅读全文

posted @ 2018-08-27 15:40 层林尽染 阅读(1890) 评论(0) 推荐(1)

摘要:整个shuffle的流程图 Paste_Image.png Map Shuffle的作用以及相应的设置 partition 过程:输入的<key,value>对经过map()处理后输出新的<key,value>对,它首先会被存储到环形缓冲区中(字节数组实现)。该环形缓冲区的大小默认为100MB。并且 阅读全文

posted @ 2018-05-11 10:59 层林尽染 阅读(1494) 评论(0) 推荐(0)

摘要:1. 配置运行参数: Menu -> Run -> Edit Configurations -> 选择 + -> Application -Dspark.master=local 参数配置如下: VM options: -Dspark.master=local代表使用本地模式运行Spark代码,也可 阅读全文

posted @ 2018-02-24 09:33 层林尽染 阅读(368) 评论(0) 推荐(0)

摘要:Spark的api运算函数分为两大类,Transformation和Action:Transformations是lazy evaluation的,调用他们只会被记录而不会被真正执行,只有遇到Actions,之前的Transformations才会被依次执行,这样的Delay Scheduling, 阅读全文

posted @ 2018-01-22 10:02 层林尽染 阅读(118) 评论(0) 推荐(0)

摘要:但是在hive中查询是可以的。 后来经过一点一点测试发现,原来分区名称不能是大写,必须小写才行。 阅读全文

posted @ 2018-01-18 14:44 层林尽染 阅读(257) 评论(0) 推荐(0)

摘要:1、启动pyspark 2、查看pyspark服务的token jupyter notebook list 查看正在运行的notebook服务以及他们的token 3、在idea里运行notebook文件,在提示输入token时输入token值 阅读全文

posted @ 2017-12-15 22:58 层林尽染 阅读(189) 评论(0) 推荐(0)

摘要:1,下载hadoop winutils 设置HADOOP_HOME 2、下载spark,设置SPARK_HOME,将%SPARK_HOME%/加入到PATH路径下 3、安装Anaconda 就是python及一些相关Python包,设置 4、设置PYTHON_HOME 5、设置PYSPARK_DRI 阅读全文

posted @ 2017-12-15 22:51 层林尽染 阅读(841) 评论(0) 推荐(0)

摘要:spark读写mysql除官网例子外还要指定驱动名称 阅读全文

posted @ 2017-12-15 20:10 层林尽染 阅读(201) 评论(0) 推荐(0)

摘要:参考文档:http://www.cnblogs.com/huliangwen/p/7491797.html 阅读全文

posted @ 2017-10-27 14:38 层林尽染 阅读(92) 评论(0) 推荐(0)

摘要:1、下载源码 2、进入源码根据README.md编译源码,注意使用的是源码目录下的maven编译 3、用idea导入顶层pom文件 4、修改顶层pom文件和example下的pom文件,将scope的值全部从provided替换成compile 5、运行任意example,由于是本地运行,需要添加 阅读全文

posted @ 2017-10-21 15:47 层林尽染 阅读(276) 评论(0) 推荐(0)

摘要:转载自https://github.com/linbojin/spark-notes/blob/master/ide-setup.md 搭建Spark源码研读和代码调试的开发环境 工欲善其事,必先利其器,第一篇笔记介绍如何搭建源码研读和代码调试的开发环境。 一些必要的开发工具,请自行提前安装: sc 阅读全文

posted @ 2017-06-11 15:12 层林尽染 阅读(3412) 评论(0) 推荐(0)

导航