spark - 随笔分类 - wqbin

spark 三种数据集的关系（二）

摘要：一个Dataset是一个分布式的数据集，而且它是一个新的接口，这个新的接口是在Spark1.6版本里面才被添加进来的，所以要注意DataFrame是先出来的，然后在1.6版本才出现的Dataset，提供了哪些优点呢？比如强类型，支持lambda表达式，还有还提供了sparksql执行引擎的一些优化，阅读全文

posted @ 2019-10-26 00:30 wqbin 阅读(582) 评论(0) 推荐(0)

pandas的dataframe与spark的dataframe

摘要：阅读全文

posted @ 2019-08-04 01:09 wqbin 阅读(313) 评论(0) 推荐(0)

spark 三种数据集的关系（一）

摘要：Catalyst Optimizer: Dataset 数据集仅可用Scala或Java。但是，我们提供了以下上下文来更好地理解Spark 2.0的方向数据集是在2015年作为Apache Spark 1.6版本的一部分引入的。datasets的目标是提供一个类型安全的编程接口。这允许开发人员使用阅读全文

posted @ 2019-08-01 23:04 wqbin 阅读(1679) 评论(0) 推荐(0)

spark为什么比hadoop的mr要快？

摘要：1.前言 Spark是基于内存的计算，而Hadoop是基于磁盘的计算；Spark是一种内存计算技术。但是事实上，不光Spark是内存计算，Hadoop其实也是内存计算。 Spark和Hadoop的根本差异是多个任务之间的数据通信问题：Spark多个任务之间数据通信是基于内存，而Hadoop是基于磁阅读全文

posted @ 2019-01-04 09:19 wqbin 阅读(7484) 评论(6) 推荐(2)

spark-聚合算子aggregatebykey

摘要：spark-聚合算子aggregatebykey Aggregate the values of each key, using given combine functions and a neutral "zero value". This function can return a differ 阅读全文

posted @ 2018-12-23 10:40 wqbin 阅读(1595) 评论(0) 推荐(0)

spark_rdd 一波怼完面试官系列

摘要：Resilient Distributed dataset , 弹性分布式数据集。分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。 RDD是Spark最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。 RDD必须是阅读全文

posted @ 2018-12-13 09:18 wqbin 阅读(654) 评论(0) 推荐(0)

spark job分析

摘要：spark job spark job提交三级调度框架, DagSch,计算stage，提交阶段，将stage映射成taskset，提交taskset给tasksch。 TaskSch BackendSch setMaster("local[n]") n表示使用n个线程模拟的spark集群下的wo 阅读全文

posted @ 2018-10-12 20:41 wqbin 阅读(366) 评论(0) 推荐(0)

Spark1

摘要：Spark集群 0.0体验安装Spark在集群单节点 1.tar tar xzvf xxx.tgz C /soft/ ln s /soft/spark 2.1.0 bin hadoop2.7 /soft/spark 2.配置环境变量 SPARK_HOME=/soft/spark PATH=$SPAR 阅读全文

posted @ 2018-10-12 19:53 wqbin 阅读(264) 评论(0) 推荐(0)

少年阿斌

人类被赋予了一种工作，那就是精神的成长。

随笔分类 - spark

公告