lujinhong - 博客园

2015年3月10日

摘要： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeep... 阅读全文

posted @ 2015-03-10 10:14 lujinhong 阅读(125) 评论(0) 推荐(0)

2015年3月9日

分类算法简介

摘要：一、决策树决策树是用于分类和预测的主要技术之一，决策树学习是以实例为基础的归纳学习算法，它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系，用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式，在决策树的内部节点进行属性的比较，并... 阅读全文

posted @ 2015-03-09 11:08 lujinhong 阅读(686) 评论(0) 推荐(0)

2015年3月7日

Mahout快速入门教程

摘要： Mahout 是一个很强大的数据挖掘工具，是一个分布式机器学习算法的集合，包括：被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现，把很多以前运行于单机上的算法，转化为了MapReduce模式，这样大大提升了算法可处理的数据量和处理性能。一、Mah... 阅读全文

posted @ 2015-03-07 16:20 lujinhong 阅读(414) 评论(0) 推荐(0)

2015年3月6日

使用ganglia监控hadoop及hbase集群

摘要：介绍性内容来自：http://www.uml.org.cn/sjjm/201305171.asp一、Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目，设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据（如处理器速度、内存使用量等）的名为 gmond... 阅读全文

posted @ 2015-03-06 20:53 lujinhong 阅读(245) 评论(0) 推荐(0)

irms模拟数据生成及数据分析

摘要：一、数据准备1、每天生成随机一个文本，每小时向文本中追加2次数据，每次10万条随机数据生成：2,32 * * * * bash /mnt/jediael/irms/signalGenerator/signalGenerator.sh >> /home/jediael/sg.log 2>&1类：Sig... 阅读全文

posted @ 2015-03-06 14:17 lujinhong 阅读(230) 评论(0) 推荐(0)

crontab经验

摘要： 1、基本格式第1列分钟1～59第2列小时1～23（0表示子夜）第3列日1～31第4列月1～12第5列星期0～6（0表示星期天）第6列要运行的命令2、关于日志（1）基本日志位于 /var/log/cron,但这个日志只能看任务是否有被运行。（2）关于运行脚本产生的日志，可以重定向到某个文件中，如：2,... 阅读全文

posted @ 2015-03-06 11:17 lujinhong 阅读(123) 评论(0) 推荐(0)

2015年3月2日

hprof教程

摘要：大部分内容参考http://www.linuxidc.com/Linux/2012-04/58178.htm J2SE中提供了一个简单的命令行工具来对java程序的cpu和heap进行 profiling，叫做HPROF。HPROF实际上是JVM中的一个native的库，它会在JVM启动的时候通过命... 阅读全文

posted @ 2015-03-02 12:18 lujinhong 阅读(900) 评论(0) 推荐(0)

hadoop容灾能力测试

摘要：实验简单来讲就是1. put 一个600M文件，分散3个replica x 9个block 共18个blocks到4个datanode2. 我关掉了两个datanode，使得大部分的block只在一个datanode上存在，但因为9个很分散，所以文件能正确取回（靠的是checksum来计算文件值）3... 阅读全文

posted @ 2015-03-02 09:38 lujinhong 阅读(319) 评论(0) 推荐(0)

2015年3月1日

Hadoop集群日常运维

摘要：（一）备份namenode的元数据namenode中的元数据非常重要，如丢失或者损坏，则整个系统无法使用。因此应该经常对元数据进行备份，最好是异地备份。1、将元数据复制到远程站点（1）以下代码将secondary namenode中的元数据复制到一个时间命名的目录下，然后通过scp命令远程发送到其它... 阅读全文

posted @ 2015-03-01 21:26 lujinhong 阅读(193) 评论(0) 推荐(0)

2015年2月28日

hadoop集群中的日志文件

摘要： hadoop存在多种日志文件，其中master上的日志文件记录全面信息，包括slave上的jobtracker与datanode也会将错误信息写到master中。而slave中的日志主要记录完成的task任务信息。默认情况下，hadoop日志保存在HADOOP_INSTALL/logs目录，但一般情... 阅读全文

posted @ 2015-02-28 20:37 lujinhong 阅读(378) 评论(0) 推荐(0)

jinhong_lu

公告