随笔档案「2013年3月6日」：MapReduce的核心资料索引 ... - 南宫星海

2013年3月6日

摘要：转自http://prinx.blog.163.com/blog/static/190115275201211128513868/按如下顺序看效果最佳:1. MapReduce Simplied Data Processing on Large Clusters2. Hadoop环境的安装 By 徐伟3. Parallel K-Means Clustering Based on MapReduce4. 《Hadoop权威指南》的第一章和第二章5. 迭代式MapReduce框架介绍董的博客6. HaLoop: Efficient Iterative Data Processing on Lar 阅读全文

posted @ 2013-03-06 21:36 南宫星海阅读(485) 评论(0) 推荐(0)

研究云计算与大数据分析处理领域建议看的学术论文列表

摘要：转自http://cloud.dlmu.edu.cn/cloudsite/index.php?action-viewnews-itemid-123-php-1[1] Zhou AY. Data intensive computing-challenges of data management techniques. Communications of CCF, 2009,5(7):50.53 (in Chinese with English abstract).[2] Cohen J, Dolan B, Dunlap M, Hellerstein JM, Welton C. MAD skill 阅读全文

posted @ 2013-03-06 21:30 南宫星海阅读(859) 评论(0) 推荐(0)

云计算核心论文 .

摘要：转自 http://blog.csdn.net/zhaomirong/article/details/7832215Google1. nosqldbs-NOSQL Introduction and Overview2. system and method for data distribution(2009)3. System and method for large-scale data processing using an application-independent framework(2010)4. MapReduce: Simplified Data Processing on 阅读全文

posted @ 2013-03-06 21:29 南宫星海阅读(495) 评论(0) 推荐(0)

Hadoop（初步）

摘要： Hadoop一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming 阅读全文

posted @ 2013-03-06 21:16 南宫星海阅读(381) 评论(0) 推荐(0)