摘要:本读书笔记的目录地址:http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html当前处理大规模数据最行之有效的思想就是“分而治之”。分而治之:将一个大问题划分为相对独立的若干小问题,然后加以解决。由于小问题间相对独立,因此可以以并发/并行的方式分别处理。具体来说,可以是多线程,多进程,多核以至于多处理机(集群)。如何分治?根据应用场景的不同,处理的方式千差万别。要考虑的问题包括但不限于:· 如何划分问题?· 如何将子任务
阅读全文
摘要:本读书笔记的目录地址:http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.htmlMapReduce是什么?MapReduce是一个编程和执行模型。使用MapReduce,你可以编写大规模分布式数据处理程序。使用MapReduce模型编写的程序可以运行在由普通PC机构成的集群上。本书介绍什么?本书介绍基于MapReduce的可扩展大规模文本处理方法。为什么介绍这些?要处理的数据规模越来越大了,比如:1) 大规模数据管理。现在任何基于数据构建(
阅读全文
摘要:本文是《Data-intensive Text Processing with MapReduce》一书(豆瓣链接)读书笔记博文列表。这是我的第一个读书笔记,其中翻译与表述不当之处,望广大网友不吝赐教。目前的状态:正在看书,边看边写,随着看书进度更新读书笔记。虽然进度上没有绝对保证,但将读书笔记以博文的方式发布出来,是对自己的督促。无论如何,我将认真研读并撰写报告。更新速度为3天左右一篇。读完以后,将持续修订。并考虑添加一些实践练习。书名中译(待定):使用MapReduce进行密集文本数据处理第1章:引言http://www.cnblogs.com/mdyang/archive/2011/06
阅读全文
摘要:1. 有4个人要过河,但是只有一独木桥,独木桥可容1~2人同时通过。现在是黑天,过独木桥需要手电筒照明,他们现在只有1个手电筒(1个手电筒可供两人一起过河用)。4个人走路速度不一,通过独木桥需要的时间分别为4,9,10,13. 问:4人全部通过独木桥需要多少时间(两人一起过桥,过桥时间是两人过桥时间中较大的)?9+4+10+4+13=402. 电视节目“猜价格”:价格是一[1,99]之间的整数。甲、乙轮流报价,先报出正确价格的人胜出。每次报价,主持人将会提示偏高/偏低/正确。假设两人都采用最大取胜概率的策略进行猜测,问:甲先猜时,获胜概率是多大?TODO3. 给出一颗二叉树的中序、后序遍历序列
阅读全文