随笔分类 -  spark

摘要:一个Dataset是一个分布式的数据集,而且它是一个新的接口,这个新的接口是在Spark1.6版本里面才被添加进来的,所以要注意DataFrame是先出来的,然后在1.6版本才出现的Dataset,提供了哪些优点呢?比如强类型,支持lambda表达式,还有还提供了sparksql执行引擎的一些优化, 阅读全文
posted @ 2019-10-26 00:30 wqbin 阅读(582) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2019-08-04 01:09 wqbin 阅读(313) 评论(0) 推荐(0)
摘要:Catalyst Optimizer: Dataset 数据集仅可用Scala或Java。但是,我们提供了以下上下文来更好地理解Spark 2.0的方向数据集是在2015年作为Apache Spark 1.6版本的一部分引入的。datasets的目标是提供一个类型安全的编程接口。 这允许开发人员使用 阅读全文
posted @ 2019-08-01 23:04 wqbin 阅读(1679) 评论(0) 推荐(0)
摘要:1.前言 Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。 但是事实上,不光Spark是内存计算,Hadoop其实也是内存计算。 Spark和Hadoop的根本差异是多个任务之间的数据通信问题:Spark多个任务之间数据通信是基于内存,而Hadoop是基于磁 阅读全文
posted @ 2019-01-04 09:19 wqbin 阅读(7484) 评论(6) 推荐(2)
摘要:spark-聚合算子aggregatebykey Aggregate the values of each key, using given combine functions and a neutral "zero value". This function can return a differ 阅读全文
posted @ 2018-12-23 10:40 wqbin 阅读(1595) 评论(0) 推荐(0)
摘要:Resilient Distributed dataset , 弹性分布式数据集。 分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。 RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。 RDD必须是 阅读全文
posted @ 2018-12-13 09:18 wqbin 阅读(654) 评论(0) 推荐(0)
摘要:spark job spark job提交 三级调度框架, DagSch,计算stage,提交阶段,将stage映射成taskset,提交taskset给tasksch。 TaskSch BackendSch setMaster("local[n]") n表示使用n个线程模拟的spark集群下的wo 阅读全文
posted @ 2018-10-12 20:41 wqbin 阅读(366) 评论(0) 推荐(0)
摘要:Spark集群 0.0体验安装Spark在集群单节点 1.tar tar xzvf xxx.tgz C /soft/ ln s /soft/spark 2.1.0 bin hadoop2.7 /soft/spark 2.配置环境变量 SPARK_HOME=/soft/spark PATH=$SPAR 阅读全文
posted @ 2018-10-12 19:53 wqbin 阅读(264) 评论(0) 推荐(0)