2012 年 6月 7 日随笔档案 - ajian005

2012年6月7日

摘要：海量数据处理与存储调研1Hadoop发展现状[[1]]ApacheNutch 是 Hadoop 的源头，该项目始于 2002年，是Apache Lucene的子项目之一。至 2004年，Google在OSDI上公开发表了题为 “MapReduce: simplified data processing on large clusters”的论文，受到启发的 Doug C 等人开始实现 MapReduce 计算框架并与 NDFS (Nutch distributed file system) 结合支持 Nutch 的主要算法。至2006 年逐渐成为一套完整而独立的软件，起阅读全文

posted @ 2012-06-07 14:27 ajian005 阅读(407) 评论(0) 推荐(0)

从Hadoop框架与MapReduce模式中谈海量数据处理

摘要：前言参考：http://www.cnblogs.com/v-July-v几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，觉得它们很是神秘，而神秘的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，觉得Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到了一个我更加感兴趣的话题：海量数据处理。由此，最近凡是空闲时，便在看“Hadoop”，“MapReduce”“海量数据处理”这方面的论文。但在看论文的过程中，总觉得那些论文都是浅尝辄止，常常看的很不过瘾，总是一个东西刚要讲到紧要处，它便结束了，让我好生“愤懑”。尽管我对这个Hadoop与Ma 阅读全文

posted @ 2012-06-07 14:10 ajian005 阅读(251) 评论(0) 推荐(0)

海量日志处理系统

摘要：转载自董的博客http://dongxicheng.org/search-engine/log-systems/1.背景介绍许多公司的平台每天会产生大量的日志（一般为流式数据，如，搜索引擎的pv，查询等），处理这些日志需要特定的日志系统，一般而言，这些系统需要具有以下特征：（1）构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；（2）支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；（3）具有高可扩展性。即：当数据量增加时，可以通过增加节点进行水平扩展。本文从设计架构，负载均衡，可扩展性和容错性等方面对比了当今开源的日志系统，包括facebook的scribe，apache的阅读全文

posted @ 2012-06-07 13:54 ajian005 阅读(303) 评论(0) 推荐(0)

ajian005

公告