上一页 1 ··· 32 33 34 35 36 37 38 39 40 ··· 45 下一页
摘要: RDD是一个抽象类定义了所有RDD共有的一些属性和方法,下面介绍了主要的属性和方法。 RDD有5个主要的属性 (一)子类 (二)属性 1、SpackContext 在主构建函数中定义,表示RDD所在运行环境,可用于获取配置,清理环境等。 2、Seq[Dependency[_]] 定义了这个RDD对父 阅读全文
posted @ 2017-04-06 14:11 大葱拌豆腐 阅读(616) 评论(0) 推荐(0)
摘要: RDD根据对父RDD的依赖关系,可分为窄依赖与宽依赖2种。 主要的区分之处在于父RDD的分区被多少个子RDD分区所依赖,如果一个就为窄依赖,多个则为宽依赖。更好的定义应该是: 窄依赖的定义是子RDD的每一个分区都依赖于父RDD的一个或者少量几个分区(不依赖于全部分区) 与依赖相关的以下5个类: 它们 阅读全文
posted @ 2017-04-06 13:37 大葱拌豆腐 阅读(3025) 评论(0) 推荐(0)
摘要: 1.文件的读取 在客户端执行读取操作时,客户端和HDFS交互过程以及NameNode和各DataNode之间的数据流是怎样的?下面将围绕图1进行具体讲解。 图 1 客户端从HDFS中读取数据 1)客户端通过调用FileSystem对象中的open()函数来读取它做需要的数据。FileSystem是H 阅读全文
posted @ 2017-03-17 13:08 大葱拌豆腐 阅读(343) 评论(0) 推荐(0)
摘要: FileSystem.create(filepath);方法会在指定的路径创建一个新的文件,并提供一个到新创建的文件的FSDataOutputStream对象;FSDataOutputStream封装了java.io.DataOutputStream,并允许程序向文件中写入基本Java数据类型;如果 阅读全文
posted @ 2017-03-16 20:21 大葱拌豆腐 阅读(455) 评论(0) 推荐(0)
摘要: 以前我们介绍的访问HDFS的方法都是单线程的,Hadoop中有一个工具可以让我们并行的拷贝大量数据文件,这个工具就是distcp。 distcp的典型应用就是在两个HDFS集群中拷贝文件,如果两个集群使用的Hadoop版本相同,可以使用hdfs标识符: % hadoop distcp hdfs:// 阅读全文
posted @ 2017-03-14 18:22 大葱拌豆腐 阅读(708) 评论(0) 推荐(0)
摘要: 转载:http://mp.weixin.qq.com/s/xCSdkQo1XMQwU91lch29Uw Apache Flume介绍: Apache Flume是一个Apache的开源项目,是一个分布的、可靠的软件系统,主要目的是从大量的分散的数据源中收集、汇聚以及迁移大规模的日志数据,最后存储到一 阅读全文
posted @ 2017-03-13 16:45 大葱拌豆腐 阅读(660) 评论(0) 推荐(0)
摘要: public class MapTest { public static void main(String[] args) { Map map = new HashMap(); map.put("1", "value1"); map.put("2", "value2"); map.put("3", "value3"); ... 阅读全文
posted @ 2017-03-09 17:12 大葱拌豆腐 阅读(189) 评论(0) 推荐(0)
摘要: 在创建Hbase表的时候默认一张表只有一个region,所有的put操作都会往这一个region中填充数据,当这个一个region过大时就会进行split。如果在创建HBase的时候就进行预分区则会减少当数据量猛增时由于region split带来的资源消耗。 HBase表的预分区需要紧密结合业务场 阅读全文
posted @ 2017-03-07 21:15 大葱拌豆腐 阅读(3959) 评论(0) 推荐(1)
摘要: 一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的 goalSize = totalSize / mapred.map.tasks inSize = max {mapred.min.split.size, minSpli 阅读全文
posted @ 2017-03-07 20:36 大葱拌豆腐 阅读(1709) 评论(0) 推荐(0)
摘要: hadoop中map和reduce的数量设置,有以下几种方式来设置 一、mapred-default.xml 这个文件包含主要的你的站点定制的Hadoop。尽管文件名以mapred开头,通过它可以控制用户maps和 reduces的默认的设置。 下面是一些有用变量: 分布式文件系统中每个数据块的大小 阅读全文
posted @ 2017-03-07 20:31 大葱拌豆腐 阅读(1541) 评论(0) 推荐(0)
上一页 1 ··· 32 33 34 35 36 37 38 39 40 ··· 45 下一页