随笔分类 -  数据仓库与数据挖掘

数据仓库与数据挖掘
摘要:hadoop RPC 网络通信是hadoop的核心模块之一,他支撑了整个Hadoop的上层分布式应用(HBASE、HDFS、MapReduce), Hadoop RPC具有以下几个特性,透明性(用户本身不应该感觉到跨机器调用的细节)、高性能(高吞吐、高并发)、可控性(轻量级、网络链接、超时、缓冲区设 阅读全文
posted @ 2016-03-12 17:24 David·Li 阅读(641) 评论(0) 推荐(0)
摘要:hadoop 前世今生 hadoop最早起源于开源收缩引擎nutch,由dong cutting 贡献,但由于nutch最初的设计不能解决数10亿级别的文件存储和索引而遇到了严重的可扩展性问题,直到2003年google发表了分布式文件系统(GFS)的论文。nutch很快便根据论文实现了NDFS,2 阅读全文
posted @ 2016-03-10 15:41 David·Li 阅读(1855) 评论(0) 推荐(0)