摘要:
一、性能优化的类型 1、使用更高效的算法 2、减少锁竞争 3、为算法生成更有效率的代码 二、CPU的使用 用BufferedOutputStream 替代直接的 FileOutputStream 利用缓冲、NIO改善磁盘与网络的IO瓶颈。 三、锁竞争 利用ConcurrentHashMap 替代 H 阅读全文
posted @ 2014-12-29 18:56
lihui1625
阅读(97)
评论(0)
推荐(0)
摘要:
一、性能优化的类型 1、使用更高效的算法 2、减少锁竞争 3、为算法生成更有效率的代码 二、CPU的使用 用BufferedOutputStream 替代直接的 FileOutputStream 利用缓冲、NIO改善磁盘与网络的IO瓶颈。 三、锁竞争 利用ConcurrentHashMap 替代 H 阅读全文
posted @ 2014-12-29 18:56
lihui1625
阅读(97)
评论(0)
推荐(0)
摘要:
性能分析很少在生产环境中进行,通常在质量评估、测试或者开发环境中进行,作为监控活动发现性能问题时的后续活动。 1、Oracle Solaris Studio Performance Analyzer 只能安装在Solaris/Linux 平台上。 2、 NetBeans Profiler 阅读全文
posted @ 2014-12-29 18:49
lihui1625
阅读(79)
评论(0)
推荐(0)
摘要:
性能分析很少在生产环境中进行,通常在质量评估、测试或者开发环境中进行,作为监控活动发现性能问题时的后续活动。 1、Oracle Solaris Studio Performance Analyzer 只能安装在Solaris/Linux 平台上。 2、 NetBeans Profiler 阅读全文
posted @ 2014-12-29 18:49
lihui1625
阅读(75)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8528317 External Source Input Pattern Description 这种模式不从hdfs加载数据,而是从hadoop以外系统,例如RDB或web service加载。 I 阅读全文
posted @ 2014-12-29 17:54
lihui1625
阅读(113)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8510162 CHAPTER 7.Input and Output Patterns 本章关注一个最经常忽略的问题,来改进MapReduce 的value:自定义输入和输出。我们并不会总使用Mapre 阅读全文
posted @ 2014-12-29 17:41
lihui1625
阅读(145)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8502460 Chain Folding 这是对job 链的一种优化。基本上是一种大体规则:每条记录都会提交给多个mapper,或者给reducer然后给mapper。这种综合处理方法会节省很多读文件 阅读全文
posted @ 2014-12-29 17:34
lihui1625
阅读(148)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8492804 Chapter 6. Meta patterns 这种模式不是解决某个问题的,而是处理模式的关系的。可以理解为“模式的模式”。首先讨论的是job链,把几个模式联合起来解决复杂的,有多个阶 阅读全文
posted @ 2014-12-29 17:26
lihui1625
阅读(126)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8492804 Chapter 6. Meta patterns 这种模式不是解决某个问题的,而是处理模式的关系的。可以理解为“模式的模式”。首先讨论的是job链,把几个模式联合起来解决复杂的,有多个阶 阅读全文
posted @ 2014-12-29 17:26
lihui1625
阅读(107)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8489248 Replicated Join Pattern Description 复制join是一种特殊的join,用于一个大数据和许多小数据集map端执行的情况。 Intent 这种模式能够消除 阅读全文
posted @ 2014-12-29 17:20
lihui1625
阅读(109)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8489248 Replicated Join Pattern Description 复制join是一种特殊的join,用于一个大数据和许多小数据集map端执行的情况。 Intent 这种模式能够消除 阅读全文
posted @ 2014-12-29 17:20
lihui1625
阅读(147)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8485273 Chapter 5. Join Patterns 把数据保存成一个巨大的数据集不是很常见。例如,用户信息数据频繁更新,所以要保存到关系数据库中。于此同时,web日志以恒定的数据流量增加, 阅读全文
posted @ 2014-12-29 17:10
lihui1625
阅读(119)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8485273 Chapter 5. Join Patterns 把数据保存成一个巨大的数据集不是很常见。例如,用户信息数据频繁更新,所以要保存到关系数据库中。于此同时,web日志以恒定的数据流量增加, 阅读全文
posted @ 2014-12-29 17:10
lihui1625
阅读(138)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8481075 Binning Pattern Description 分箱模式,跟前面的类似,分类记录且不考虑记录的顺序。 Intent 归档数据集中的每条记录到一个或多个类别。 Motivation 阅读全文
posted @ 2014-12-29 17:01
lihui1625
阅读(205)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8481075 Binning Pattern Description 分箱模式,跟前面的类似,分类记录且不考虑记录的顺序。 Intent 归档数据集中的每条记录到一个或多个类别。 Motivation 阅读全文
posted @ 2014-12-29 17:01
lihui1625
阅读(151)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8476368 Chapter 4. Data Organization Patterns 与前面章节的过滤器相比,本章是关于数据重组。个别记录的价值通常靠分区,分片,排序成倍增加。特别是在分布式系统中 阅读全文
posted @ 2014-12-29 16:53
lihui1625
阅读(149)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8476368 Chapter 4. Data Organization Patterns 与前面章节的过滤器相比,本章是关于数据重组。个别记录的价值通常靠分区,分片,排序成倍增加。特别是在分布式系统中 阅读全文
posted @ 2014-12-29 16:53
lihui1625
阅读(158)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8469448 Top Ten Pattern Description Top ten模式跟前面的有很大的不同,跟输入数据大小无关,最终得到的记录数量是确定的。而在通用filtering中,输出的规模取 阅读全文
posted @ 2014-12-29 16:42
lihui1625
阅读(134)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8469448 Top Ten Pattern Description Top ten模式跟前面的有很大的不同,跟输入数据大小无关,最终得到的记录数量是确定的。而在通用filtering中,输出的规模取 阅读全文
posted @ 2014-12-29 16:42
lihui1625
阅读(140)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8465630 Chapter 3. Filtering Patterns 本章的模式有一个共同点:不会改变原来的记录。这种模式是找到一个数据的子集,或者更小,例如取前十条,或者很大,例如结果去重。这种 阅读全文
posted @ 2014-12-29 16:34
lihui1625
阅读(230)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8465630 Chapter 3. Filtering Patterns 本章的模式有一个共同点:不会改变原来的记录。这种模式是找到一个数据的子集,或者更小,例如取前十条,或者很大,例如结果去重。这种 阅读全文
posted @ 2014-12-29 16:34
lihui1625
阅读(605)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8456923 Inverted Index Summarizations Pattern Description 反向索引模式在MapReduce分析中经常作为一个例子。我们将会讨论我们要创建的ter 阅读全文
posted @ 2014-12-29 16:19
lihui1625
阅读(138)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8456923 Inverted Index Summarizations Pattern Description 反向索引模式在MapReduce分析中经常作为一个例子。我们将会讨论我们要创建的ter 阅读全文
posted @ 2014-12-29 16:19
lihui1625
阅读(129)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8455335 Median and standard deviation 中值和标准差的计算比前面的例子复杂一点。因为这种运算是非关联的,它们不是那么容易的能从combiner中获益。中值是将数据集一 阅读全文
posted @ 2014-12-29 16:10
lihui1625
阅读(411)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8455335 Median and standard deviation 中值和标准差的计算比前面的例子复杂一点。因为这种运算是非关联的,它们不是那么容易的能从combiner中获益。中值是将数据集一 阅读全文
posted @ 2014-12-29 16:10
lihui1625
阅读(170)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8451336 CHAPTER 2 .Summarization Patterns 随着每天都有更多的数据加载进系统,数据量变得很庞大。这一章专注于对你的数据顶层的,概括性意见的设计模式,从而使你能扩展 阅读全文
posted @ 2014-12-29 16:00
lihui1625
阅读(161)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8451336 CHAPTER 2 .Summarization Patterns 随着每天都有更多的数据加载进系统,数据量变得很庞大。这一章专注于对你的数据顶层的,概括性意见的设计模式,从而使你能扩展 阅读全文
posted @ 2014-12-29 16:00
lihui1625
阅读(353)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8443841 Chapter 1. Design Patterns and MapReduce MapReduce 是一种运行于成百上千台机器上的处理数据的框架,目前被google,Hadoop等多家 阅读全文
posted @ 2014-12-29 15:46
lihui1625
阅读(135)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/cuirong1986/article/details/8443841 Chapter 1. Design Patterns and MapReduce MapReduce 是一种运行于成百上千台机器上的处理数据的框架,目前被google,Hadoop等多家 阅读全文
posted @ 2014-12-29 15:46
lihui1625
阅读(138)
评论(0)
推荐(0)
摘要:
http://dongxicheng.org/mapreduce/hadoop-join-two-tables/ 1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时 阅读全文
posted @ 2014-12-29 14:26
lihui1625
阅读(714)
评论(0)
推荐(0)
摘要:
http://blog.csdn.net/qq272936993/article/details/7457553 现在这里有两个text文档,需要把它合并成一个文档,并且里面的数据不能有冗余.. user.txt文件: depart.txt文件: 生成文件: 因为user.txt文档的第3个字段与d 阅读全文
posted @ 2014-12-29 14:10
lihui1625
阅读(191)
评论(0)
推荐(0)
浙公网安备 33010602011771号