摘要: 在创建Hbase表的时候默认一张表只有一个region,所有的put操作都会往这一个region中填充数据,当这个一个region过大时就会进行split。如果在创建HBase的时候就进行预分区则会减少当数据量猛增时由于region split带来的资源消耗。 HBase表的预分区需要紧密结合业务场 阅读全文
posted @ 2017-03-07 21:15 大葱拌豆腐 阅读(3960) 评论(0) 推荐(1)
摘要: 一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的 goalSize = totalSize / mapred.map.tasks inSize = max {mapred.min.split.size, minSpli 阅读全文
posted @ 2017-03-07 20:36 大葱拌豆腐 阅读(1709) 评论(0) 推荐(0)
摘要: hadoop中map和reduce的数量设置,有以下几种方式来设置 一、mapred-default.xml 这个文件包含主要的你的站点定制的Hadoop。尽管文件名以mapred开头,通过它可以控制用户maps和 reduces的默认的设置。 下面是一些有用变量: 分布式文件系统中每个数据块的大小 阅读全文
posted @ 2017-03-07 20:31 大葱拌豆腐 阅读(1541) 评论(0) 推荐(0)
摘要: 资源调优 调优概述 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致 阅读全文
posted @ 2017-03-07 17:07 大葱拌豆腐 阅读(345) 评论(0) 推荐(0)
摘要: 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就 阅读全文
posted @ 2017-03-07 17:04 大葱拌豆腐 阅读(511) 评论(0) 推荐(1)