随笔分类 - 数据仓库与数据挖掘
数据仓库与数据挖掘
摘要:hadoop RPC 网络通信是hadoop的核心模块之一,他支撑了整个Hadoop的上层分布式应用(HBASE、HDFS、MapReduce), Hadoop RPC具有以下几个特性,透明性(用户本身不应该感觉到跨机器调用的细节)、高性能(高吞吐、高并发)、可控性(轻量级、网络链接、超时、缓冲区设
阅读全文
摘要:hadoop 前世今生 hadoop最早起源于开源收缩引擎nutch,由dong cutting 贡献,但由于nutch最初的设计不能解决数10亿级别的文件存储和索引而遇到了严重的可扩展性问题,直到2003年google发表了分布式文件系统(GFS)的论文。nutch很快便根据论文实现了NDFS,2
阅读全文

浙公网安备 33010602011771号