2017 年 3月 7 日随笔档案 - 大葱拌豆腐

2017年3月7日

摘要：在创建Hbase表的时候默认一张表只有一个region，所有的put操作都会往这一个region中填充数据，当这个一个region过大时就会进行split。如果在创建HBase的时候就进行预分区则会减少当数据量猛增时由于region split带来的资源消耗。 HBase表的预分区需要紧密结合业务场阅读全文

posted @ 2017-03-07 21:15 大葱拌豆腐阅读(3960) 评论(0) 推荐(1)

如何确定Hadoop中map和reduce的个数--map和reduce数量之间的关系是什么？

摘要：一般情况下，在输入源是文件的时候，一个task的map数量由splitSize来决定的，那么splitSize是由以下几个来决定的 goalSize = totalSize / mapred.map.tasks inSize = max {mapred.min.split.size, minSpli 阅读全文

posted @ 2017-03-07 20:36 大葱拌豆腐阅读(1709) 评论(0) 推荐(0)

hadoop中map和reduce的数量设置

摘要： hadoop中map和reduce的数量设置，有以下几种方式来设置一、mapred-default.xml 这个文件包含主要的你的站点定制的Hadoop。尽管文件名以mapred开头，通过它可以控制用户maps和 reduces的默认的设置。下面是一些有用变量：分布式文件系统中每个数据块的大小阅读全文

posted @ 2017-03-07 20:31 大葱拌豆腐阅读(1541) 评论(0) 推荐(0)

Spark性能优化(二)

摘要：资源调优调优概述在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致阅读全文

posted @ 2017-03-07 17:07 大葱拌豆腐阅读(345) 评论(0) 推荐(0)

Spark性能优化(一)

摘要：前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就阅读全文

posted @ 2017-03-07 17:04 大葱拌豆腐阅读(511) 评论(0) 推荐(1)

公告