上一页 1 ··· 3 4 5 6 7
摘要: 1、RDD基础 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在分区的不同节点上。 用户可以通过两种方式创建RDD: (1)读取外部数据集 》 sc.textFile(inputfile) (2)驱动器程序中对一个集合进行并行化 》sc.parallel 阅读全文
posted @ 2018-08-03 22:32 流氓小伙子 阅读(195) 评论(0) 推荐(0)
摘要: 1、Spark中的Python和Scala的Shell (1): Python的Spark Shell 也就是我们常说的PySpark Shell进入我们的Spark目录中然后输入 bin/pyspark (2): Scala中的Shell bin/spark-shell 利用spark进行行数的统 阅读全文
posted @ 2018-08-03 21:35 流氓小伙子 阅读(204) 评论(0) 推荐(0)
摘要: 数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了’一个人累死,其他人闲死’的情况 解决办法 1.增加jvm内存,这适用于第一种情况(唯一值非常少,极少数值有非常多的记录值(唯一值少于几千)),这种情况下,往往只能通过硬件的手段来... 阅读全文
posted @ 2018-08-03 11:33 流氓小伙子 阅读(4016) 评论(1) 推荐(1)
摘要: Spark数据倾斜 产生原因 首先RDD的逻辑其实时表示一个对象集合。在物理执行期间,RDD会被分为一系列的分区,每个分区都是整个数据集的子集。当spark调度并运行任务的时候,Spark会为每一个分区中的数据创建一个任务。大部分的任务处理的数据量差不多,但是有少部分的任务处理的数据量很大,因而Sp 阅读全文
posted @ 2018-08-03 10:54 流氓小伙子 阅读(4971) 评论(0) 推荐(0)
摘要: (一)MapReduce简单介绍MapReduce是一种分布式的计算模型,主要用于搜索领域,解决海量数据的计算问题它主要由两个阶段组成:Map和Reduce,用户只要实现map()和reduce()两个函数,就可以实现分布式计算这两个函数的形参是key,va... 阅读全文
posted @ 2017-12-31 15:39 流氓小伙子 阅读(193) 评论(0) 推荐(0)
摘要: Remote Procedure Call(简称RPC):远程过程调用协议 1. 通过网络从远程计算机程序上请求服务 2. 不需要了解底层网络技术的协议(假定某些传输协议的存在,如TCP或UDP) 3. 采用客户机/服务机模式请... 阅读全文
posted @ 2017-12-30 13:59 流氓小伙子 阅读(159) 评论(0) 推荐(0)
摘要: fs.copyToLocalFile(new Path("/study1/1.txt"), new Path("C:/Users/Administrator/Desktop/d2.txt"));报错log4j:WARN No appenders could... 阅读全文
posted @ 2017-12-28 16:07 流氓小伙子 阅读(1977) 评论(0) 推荐(0)
摘要: (1)通过前序列表(根左右) 和 中序列表(左跟右)来重建二叉树 思路 前序遍历 序列中,第一个数字总是二叉树的根节点。在中序遍历 序列中,根节点的值在序列的中间,左子树的节点的值位于根节点的值的左边,右子树的节点的值位于根节点的值的右边。根据二叉树的这个性... 阅读全文
posted @ 2017-11-20 21:41 流氓小伙子 阅读(416) 评论(0) 推荐(0)
上一页 1 ··· 3 4 5 6 7