摘要: Chapter 3. Filtering Patterns 本章的模式有一个共同点:不会改变原来的记录。这种模式是找到一个数据的子集,或者更小,例如取前十条,或者很大,例如结果去重。这种过滤器模式跟前面章节的不同是,从更小的粒度认识数据,例如特殊用户生成的记录,或文本中用得最多的前10个动词。简单的 阅读全文
posted @ 2018-06-19 15:27 sky_sql 阅读(347) 评论(0) 推荐(0) 编辑
摘要: Inverted Index Summarizations Pattern Description 反向索引模式在MapReduce分析中经常作为一个例子。我们将会讨论我们要创建的term跟标识符之间映射的一般情况。 Intent 根据数据集生成索引,用于快速搜索或数据的富集能力。 Motivati 阅读全文
posted @ 2018-06-19 15:20 sky_sql 阅读(158) 评论(0) 推荐(0) 编辑
摘要: Median and standard deviation 中值和标准差的计算比前面的例子复杂一点。因为这种运算是非关联的,它们不是那么容易的能从combiner中获益。中值是将数据集一分为两等份的数值类型,一份比中值大,一部分比中值小。这需要数据集按顺序完成清洗。数据必须是排序的,但存在一定障碍, 阅读全文
posted @ 2018-06-19 15:00 sky_sql 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 随着每天都有更多的数据加载进系统,数据量变得很庞大。这一章专注于对你的数据顶层的,概括性意见的设计模式,从而使你能扩展思路,但可能对局部数据是不适用的。概括性的分析都是关于对相似数据的分组和执行统计运算,创建索引,或仅仅为了计数。 通过分组数据集计算聚合排序是一种快速获取结果的好方法。例如,你可能想 阅读全文
posted @ 2018-06-19 14:54 sky_sql 阅读(160) 评论(0) 推荐(0) 编辑
摘要: Chapter 1.Design Patterns and MapReduce MapReduce 是一种运行于成百上千台机器上的处理数据的框架,目前被google,Hadoop等多家公司或社区广泛使用。这种计算框架是非常强大,但它没有提供一个处理所谓“big data”的通用,普遍的情形,所以它能 阅读全文
posted @ 2018-06-19 14:17 sky_sql 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Memory 的运行原理和机制 引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的 阅读全文
posted @ 2018-05-24 18:29 sky_sql 阅读(470) 评论(0) 推荐(0) 编辑
摘要: 本课主题 Sorted-Based Shuffle 的诞生和介绍 Shuffle 中六大令人费解的问题 Sorted-Based Shuffle 的排序和源码鉴赏 Shuffle 在运行时的内存管理 引言 在历史的发展中,为什么 Spark 最终还是选择放弃了 HashShuffle 而使用了 So 阅读全文
posted @ 2018-05-24 18:14 sky_sql 阅读(920) 评论(0) 推荐(0) 编辑
摘要: 本课主题 Shuffle 是分布式系统的天敌 Spark HashShuffle介绍 Spark Consolidated HashShuffle介绍 Shuffle 是如何成为 Spark 性能杀手 Shuffle 性能调优思考 Spark HashShuffle 源码鉴赏 引言 Spark Ha 阅读全文
posted @ 2018-05-24 18:06 sky_sql 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 1:sparkconf.set("spark.shuffle.file.buffer","64K") --不建议使用,因为这么写相当于硬编码2:在conf/spark-default.conf 不建议使用,相当于硬编码3:./spark-submit --conf spark.shuffle.fil 阅读全文
posted @ 2018-05-24 17:20 sky_sql 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 本课主题 大数据性能调优的本质 Spark 性能调优要点分析 Spark 资源使用原理流程 Spark 资源调优最佳实战 Spark 更高性能的算子 引言 我们谈大数据性能调优,到底在谈什么,它的本质是什么,以及 Spark 在性能调优部份的要点,这两点让在进入性能调优之前都是一个至关重要的问题,它 阅读全文
posted @ 2018-05-24 17:14 sky_sql 阅读(294) 评论(0) 推荐(0) 编辑