随笔分类 -  M MapReduce

分布式计算与存储 http://en.wikipedia.org/wiki/MapReduce
搭建本地hadoop测试环境
摘要:操作系统:Ubuntu 9.10下载hadoop: hadoop-0.20.1.tar.gz安装依赖软件:Java 1.6x 或以上[代码]在conf/hadoo-env.sh设在JAVA_HOME变量:[代码]ssh及sshd[代码]hadoop测试环境配置(单机, 模拟分布式环境)namenode节点配置conf/core-site.xml:[代码]hdfs测试环境配置conf/hdfs-si... 阅读全文

posted @ 2009-11-16 10:43 MK2 阅读(1575) 评论(0) 推荐(0)

随想数据的统计与分析
摘要:最近拿到一大堆数据,在对其做完MapReduce统计后,需要提炼一些有价值的数据出来使用。1. 同一数据重复出现,是否大堆一定概率或者重现数量达到某个范围,就能确定该数据是有效的呢?2. 数据的时间有效性。若这组数据是跟时间相关的,时间这个参数是否需要考虑进去,具体的时间参考值又需要如何定义呢?3. 随机出现的干扰数据,是否也有一些规律性呢?一旦这些干扰数据消失,是好事还是坏事呢?4. 海量数据统... 阅读全文

posted @ 2009-08-20 00:20 MK2 阅读(500) 评论(0) 推荐(1)