流氓小伙子

2018年8月3日

摘要： 1、RDD基础 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在分区的不同节点上。用户可以通过两种方式创建RDD：（1）读取外部数据集》 sc.textFile(inputfile) （2）驱动器程序中对一个集合进行并行化》sc.parallel 阅读全文

posted @ 2018-08-03 22:32 流氓小伙子阅读(195) 评论(0) 推荐(0)

Spark基础：(一)初识Spark

摘要： 1、Spark中的Python和Scala的Shell (1)： Python的Spark Shell 也就是我们常说的PySpark Shell进入我们的Spark目录中然后输入 bin/pyspark (2): Scala中的Shell bin/spark-shell 利用spark进行行数的统阅读全文

posted @ 2018-08-03 21:35 流氓小伙子阅读(204) 评论(0) 推荐(0)

Hadoop数据倾斜及解决办法

摘要：数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了’一个人累死,其他人闲死’的情况解决办法 1.增加jvm内存,这适用于第一种情况(唯一值非常少，极少数值有非常多的记录值(唯一值少于几千)),这种情况下,往往只能通过硬件的手段来... 阅读全文

posted @ 2018-08-03 11:33 流氓小伙子阅读(4016) 评论(1) 推荐(1)

Spark产生数据倾斜的原因以及解决办法

摘要： Spark数据倾斜产生原因首先RDD的逻辑其实时表示一个对象集合。在物理执行期间，RDD会被分为一系列的分区，每个分区都是整个数据集的子集。当spark调度并运行任务的时候，Spark会为每一个分区中的数据创建一个任务。大部分的任务处理的数据量差不多，但是有少部分的任务处理的数据量很大，因而Sp 阅读全文

posted @ 2018-08-03 10:54 流氓小伙子阅读(4971) 评论(0) 推荐(0)

2017年12月31日

Hadoop MapReduce -wordcount学习

摘要：（一）MapReduce简单介绍MapReduce是一种分布式的计算模型，主要用于搜索领域，解决海量数据的计算问题它主要由两个阶段组成：Map和Reduce，用户只要实现map()和reduce()两个函数，就可以实现分布式计算这两个函数的形参是key,va... 阅读全文

posted @ 2017-12-31 15:39 流氓小伙子阅读(193) 评论(0) 推荐(0)

2017年12月30日

Hadoop RPC通信

摘要： Remote Procedure Call(简称RPC)：远程过程调用协议 1. 通过网络从远程计算机程序上请求服务 2. 不需要了解底层网络技术的协议（假定某些传输协议的存在，如TCP或UDP） 3. 采用客户机/服务机模式请... 阅读全文

posted @ 2017-12-30 13:59 流氓小伙子阅读(159) 评论(0) 推荐(0)

2017年12月28日

Hadoop fs.copyToLocalFile错误

摘要： fs.copyToLocalFile(new Path("/study1/1.txt"), new Path("C:/Users/Administrator/Desktop/d2.txt"));报错log4j:WARN No appenders could... 阅读全文

posted @ 2017-12-28 16:07 流氓小伙子阅读(1977) 评论(0) 推荐(0)

2017年11月20日

递归重建二叉树的思路

摘要：（1）通过前序列表（根左右）和中序列表（左跟右）来重建二叉树思路前序遍历序列中，第一个数字总是二叉树的根节点。在中序遍历序列中，根节点的值在序列的中间，左子树的节点的值位于根节点的值的左边，右子树的节点的值位于根节点的值的右边。根据二叉树的这个性... 阅读全文

posted @ 2017-11-20 21:41 流氓小伙子阅读(416) 评论(0) 推荐(0)

公告