随笔分类 -  Apache Hadoop

摘要:HDFS编程主要API Hadoop类 功能 org.apache.hadoop.fs.FileSystem 一个通用文件系统的抽象基类,可以被分布式文件系统继承。所有的可能使用Hadoop文件系统的代码都要使用到这个类。 ... 阅读全文
posted @ 2013-10-29 16:01 Kyle_Java 阅读(1877) 评论(0) 推荐(0)
摘要:1.流式数据访问 HDFS的构建思想是这样的:一次写入,多次读取是最高效的访问模式。数据集通常有数据源生成或从数据源复制而来,接着长时间在此数据集上进行各类分析。每次分析都将设计数据集的大部分数据甚至全部,因此读取整个数据集的时间延迟比读取第一条数据的时间延迟更重要。 2.关于时间延迟的数据访问 要... 阅读全文
posted @ 2013-10-24 18:22 Kyle_Java 阅读(924) 评论(0) 推荐(0)
摘要:任务:分析通话记录,查处每个手机号码有哪些打过来的号码 13510921776 1008613710148751 1008613914248991 1008613510921776 1371014875113510921776 1371014875113914248991 13710148751... 阅读全文
posted @ 2013-10-18 19:35 Kyle_Java 阅读(795) 评论(0) 推荐(0)
摘要:HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,是Google Bigtable的开源实现,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 Google Bigtable 利用 GFS 作为其文件存储系统,HBase利用... 阅读全文
posted @ 2013-07-05 09:42 Kyle_Java 阅读(730) 评论(0) 推荐(0)
摘要:Hadoop伪分布配置 在conf/hadoop-env.sh配置JAVA_HOME export JAVA_HOME=/etc/alternatives/java_sdk_1.6.0 在conf/core-site.xml文件中增加如下内容 fs.... 阅读全文
posted @ 2013-05-10 18:29 Kyle_Java 阅读(555) 评论(0) 推荐(0)
摘要:云计算云计算(Cloud Computing)是基于互联网的一种计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其它设备。分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网... 阅读全文
posted @ 2013-05-10 18:28 Kyle_Java 阅读(546) 评论(0) 推荐(0)