大数据 - 随笔分类 - 渣渣的pp

大数据之性能调优方面（数据倾斜、shuffle、JVM等方面）

摘要：一、对于数据倾斜的发生一般都是一个key对应的数据过大，而导致Task执行过慢，或者内存溢出（OOM），一般是发生在shuffle的时候，比如reduceByKey，groupByKey，sortByKey等，容易产生数据倾斜。那么针对数据倾斜我们如何解决呢？我们可以首先观看log日志，以为log 阅读全文

posted @ 2018-11-14 13:30 渣渣的pp 阅读(1640) 评论(0) 推荐(0)

Mapreduce的Job运行流程

摘要：对于Job的运行全流程来说我们只需要记住几个特殊的点即可，比如：TextInputFormat、LineRecordreader、partitioner、compareTo、combiner、Groupingcomparator、TextOutputFormat、LineRecordReader。图阅读全文

posted @ 2018-11-14 10:58 渣渣的pp 阅读(169) 评论(0) 推荐(0)

Mapreduce的job提交流程

摘要：在hadoop1.0版本以前我们的Mapreduce是被当作资源调度和计算框架来使用的，成为了hadoop运行生态圈的瓶颈，所以在hadoop2.0版本以上引入了yarn的概念，使Mapreduce完全成为分布式计算框架，而Yarn成为了分布式资源调度。虽然mapreduce处理速度很慢，IO操作会阅读全文

posted @ 2018-11-14 10:44 渣渣的pp 阅读(1046) 评论(0) 推荐(0)

Hadoop之hdfs

摘要：大数据中我们常见的组件之一就是hdfs了。hdfs又是hadoop生态圈中必不可少的一个框架，所以我们进入Hadoop就必须要对它有一定的了解。首先我们都知道hdfs是hadoop生态圈中的分布式文件系统，他存储了我们大数据中的海量数据，正是因为谷歌的论文的发布，我们才会有了hdfs的产生，伴随阅读全文

posted @ 2018-11-02 19:13 渣渣的pp 阅读(128) 评论(0) 推荐(0)

渣渣的pp

随笔分类 - 大数据

大数据之性能调优方面（数据倾斜、shuffle、JVM等方面）

Mapreduce的Job运行流程

Mapreduce的job提交流程

Hadoop之hdfs