上一页 1 2 3 4 5 6 7 8 ··· 28 下一页
摘要: http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网 http://hadoop.apache.org/zookeep... 阅读全文
posted @ 2015-03-10 10:14 lujinhong 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 一、决策树 决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中 推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的 内部节点进行属性的比较,并... 阅读全文
posted @ 2015-03-09 11:08 lujinhong 阅读(666) 评论(0) 推荐(0) 编辑
摘要: Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。一、Mah... 阅读全文
posted @ 2015-03-07 16:20 lujinhong 阅读(364) 评论(0) 推荐(0) 编辑
摘要: 介绍性内容来自:http://www.uml.org.cn/sjjm/201305171.asp一、Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond... 阅读全文
posted @ 2015-03-06 20:53 lujinhong 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 一、数据准备1、每天生成随机一个文本,每小时向文本中追加2次数据,每次10万条随机数据生成:2,32 * * * * bash /mnt/jediael/irms/signalGenerator/signalGenerator.sh >> /home/jediael/sg.log 2>&1类:Sig... 阅读全文
posted @ 2015-03-06 14:17 lujinhong 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 1、基本格式第1列分钟1~59第2列小时1~23(0表示子夜)第3列日1~31第4列月1~12第5列星期0~6(0表示星期天)第6列要运行的命令2、关于日志(1)基本日志位于 /var/log/cron,但这个日志只能看任务是否有被运行。(2)关于运行脚本产生的日志,可以重定向到某个文件中,如:2,... 阅读全文
posted @ 2015-03-06 11:17 lujinhong 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 大部分内容参考http://www.linuxidc.com/Linux/2012-04/58178.htm J2SE中提供了一个简单的命令行工具来对java程序的cpu和heap进行 profiling,叫做HPROF。HPROF实际上是JVM中的一个native的库,它会在JVM启动的时候通过命... 阅读全文
posted @ 2015-03-02 12:18 lujinhong 阅读(851) 评论(0) 推荐(0) 编辑
摘要: 实验简单来讲就是1. put 一个600M文件,分散3个replica x 9个block 共18个blocks到4个datanode2. 我关掉了两个datanode,使得大部分的block只在一个datanode上存在,但因为9个很分散,所以文件能正确取回(靠的是checksum来计算文件值)3... 阅读全文
posted @ 2015-03-02 09:38 lujinhong 阅读(306) 评论(0) 推荐(0) 编辑
摘要: (一)备份namenode的元数据namenode中的元数据非常重要,如丢失或者损坏,则整个系统无法使用。因此应该经常对元数据进行备份,最好是异地备份。1、将元数据复制到远程站点(1)以下代码将secondary namenode中的元数据复制到一个时间命名的目录下,然后通过scp命令远程发送到其它... 阅读全文
posted @ 2015-03-01 21:26 lujinhong 阅读(188) 评论(0) 推荐(0) 编辑
摘要: hadoop存在多种日志文件,其中master上的日志文件记录全面信息,包括slave上的jobtracker与datanode也会将错误信息写到master中。而slave中的日志主要记录完成的task任务信息。默认情况下,hadoop日志保存在HADOOP_INSTALL/logs目录,但一般情... 阅读全文
posted @ 2015-02-28 20:37 lujinhong 阅读(336) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 28 下一页