摘要: 当集群启动的时候,会首先进入到安全模式。系统在安全模式下,会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在dataNode上就应该有5个副本存在,假设只存在3个副本,那么比率就是3/5=0.6。在配置文件hdfs-default.xml中定义了一个最小的... 阅读全文
posted @ 2015-04-23 10:45 孟想阳光 阅读(298) 评论(0) 推荐(0)
摘要: 作用:在Mapper端对数据进行Combine归约处理,Combine业务逻辑与Reducer端做的完全相同。处理后的数据再传送到Reducer端,再做一次归约。这样的好处是减少了网络传输的数量。在Mapper进行归约后,数据量变小了,这样再通过网络传输时,传输时间就变短了,减少了整个作业的运行时间... 阅读全文
posted @ 2015-04-23 10:38 孟想阳光 阅读(614) 评论(0) 推荐(0)
摘要: 选项名称使用格式含义-ls-ls 查看指定路径的当前目录结构-lsr-lsr 递归查看指定路径的目录结构-du-du 统计目录下个文件大小-dus-dus 汇总统计目录下文件(夹)大小-count-count [-q] 统计文件(夹)数量-mv-mv 移动-cp-cp 复制-rm-rm [-sk... 阅读全文
posted @ 2015-04-23 10:33 孟想阳光 阅读(216) 评论(0) 推荐(0)
摘要: 修改配置文件/etc/profile,增加环境变量HADOOP_HOME_WARN_SUPPRESS=1,保存退出,再次启动hadoop,就不会出现警告信息了 阅读全文
posted @ 2015-04-23 10:32 孟想阳光 阅读(136) 评论(0) 推荐(0)
摘要: 1.解压hadoop-1.1.2.tar.gz,重点在src文件夹2.在eclipse中通过菜单栏创建一个java工程,工程名随便3.在创建的工程上,点击右键,在弹出菜单中选择最后一项,在弹出窗口中,左边选择“Java Build Path“,右边选择Libraries,然后点击Add Extern... 阅读全文
posted @ 2015-04-23 10:30 孟想阳光 阅读(133) 评论(0) 推荐(0)
摘要: 50070端口查看NameNode状态,该端口的定义位于core-default.xml中,可以在core-site.xml中自行修改。50075端口查看DataNode的,该地址和端口的定义位于hdfs-default.xml中,50090端口查看SecondaryNameNode的50030端口... 阅读全文
posted @ 2015-04-23 10:25 孟想阳光 阅读(1435) 评论(0) 推荐(0)
摘要: * 路径描述符在Linux中,路径是通过斜线“/”划分的。在一个使用“/”划分的长路径中,开头的如果是“/”,这个斜线是特殊的,称作根路径。根路径使用“/”表示,在路径的开始位置,类似于Windows的“我的电脑”;点号“.”表示当前路径,无论你在哪个位置,点号都表示当前所在的路径;两个点“..”表... 阅读全文
posted @ 2015-04-23 10:20 孟想阳光 阅读(142) 评论(0) 推荐(0)
摘要: 主要是先看MapReduce模型有什么问题?第一:需要写很多底层的代码不够高效,第二:所有的事情必须要转化成两个操作Map/Reduce,这本身就很奇怪,也不能解决所有的情况。其实Spark出现就是为了解决上面的问题。介绍一些Spark的起源。发自 2010年Berkeley AMPLab,发表在h... 阅读全文
posted @ 2015-04-22 23:49 孟想阳光 阅读(261) 评论(0) 推荐(0)
摘要: 按照时间的早晚从大数据出现之前的时代讲到现在。暂时按一个城市来比喻吧,反正Landscape的意思也大概是”风景“的意思。早在大数据概念出现以前就存在了各种各样的关于数学、统计学、算法、编程语言的研究、讨论和实践。这个时代,算法以及各种数学知识作为建筑的原料(比如钢筋、砖块),编程语言作为粘合剂(比... 阅读全文
posted @ 2015-04-22 23:43 孟想阳光 阅读(2941) 评论(0) 推荐(0)
摘要: 挖掘数据集:贩物篮数据 频繁模式:频繁地出现在数据集中的模式,例如项集,子结构,子序列等 挖掘目标:频繁模式,频繁项集,关联规则等 关联规则:牛奶=>鸡蛋【支持度=2%,置信度=60%】 支持度:分析中的全部事务的2%同时贩买了牛奶和鸡蛋 置信度:贩买了牛奶的筒子有60%也贩买了鸡蛋 最... 阅读全文
posted @ 2015-04-22 20:53 孟想阳光 阅读(1597) 评论(0) 推荐(0)