随笔分类 -  Hadoop

分布式文件系统
摘要:解压:tar xf zookeeper-3.4.9.tar.gz进入目录cd /opt/zookeeper-3.4.9/编辑配置文件:vim zoo.cfg# The number of milliseconds of each ticktickTime=2000# The number of ti 阅读全文
posted @ 2018-01-08 13:39 fansik 阅读(280) 评论(0) 推荐(0)
摘要:一、系统及软件环境 1、操作系统 CentOS release 6.5 (Final) 内核版本:2.6.32-431.el6.x86_64 master.fansik.com:192.168.83.118 node1.fansik.com:192.168.83.119 node2.fansik.c 阅读全文
posted @ 2016-08-02 15:52 fansik 阅读(350) 评论(0) 推荐(0)
摘要:一、MapReduce模型 1、MapReduce是大规模数据(TB级)计算的利器,Map和Reduce是它的主要思想,来源于函数式编程语言。 2、Map负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现Map和Reduce两个接口,即可完成TB级数据的计算。 3、常见的应用包括:日志分 阅读全文
posted @ 2016-08-01 15:14 fansik 阅读(504) 评论(0) 推荐(0)
摘要:一、HDFS概述 1、HDFS设计思想来源于Google的GFS,是GFS的开源实现。 2、HDFS要解决的问题: -存储超大文件,比如TB级别 -防止文件丢失。 3、HDFS的特点 -可以存储超大文件 -只允许对一个已经打开的文件顺序写入,还可以在现有文件的末尾追加,要想修改一个文件(追加内容除外 阅读全文
posted @ 2016-08-01 14:41 fansik 阅读(534) 评论(0) 推荐(0)
摘要:一、大数据介绍 1、大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。 2、大数据,可帮助我们能察觉商业趋势、判断研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等。 3、麦肯锡全球研究院(MGI)预测,到2020年,全球数据使 阅读全文
posted @ 2016-08-01 11:24 fansik 阅读(1452) 评论(0) 推荐(0)