随笔档案「2012年10月」 - fbiswt

hadoop 无法启动tasktrack 和jobtrack 解决办法

摘要：linux 单一结点安装中遇到的问题。配置文件都没有问题，能启动namenode 和datanode等，就是无法启动jobttarch和tasktrack，localhost：50070能够登录但是不能启打开localhost：50030。查看tasktrack的log发现问题是：javaIOException：localhost/127.0.0.1:9001 failed to connect。解决办法：把mapred-site.xml中的localhost改为本机的ip地址就好了，比如说”192.168.183.129“。阅读全文

posted @ 2012-10-30 11:40 fbiswt 阅读(485) 评论(0) 推荐(0)

weka使用笔记1-cluster内方法的使用

摘要：weka提供了11种聚类算法，常用的有kmeans 和EM，weka的simpleKmeans是最简单的聚类方法，距离是计算欧几里德距离，但是新版本的weka是可以置入自己的计算距离的公式的。EM聚类的效率很低，建议如果不是实验情况，不要使用。主要说一下simpleKmeans聚类。SimpleKmeans聚类参数很简单，这里不再赘述，文档里面写的很清楚。用图形界面的情况下，聚类之后，在左下方的result list栏里，右键，有很多选项，其中visualize cluster assignment可以看聚类之后的结果，在这个visualize界面，有一个save，是可以把类标号添加到每一行数阅读全文

posted @ 2012-10-24 16:51 fbiswt 阅读(2966) 评论(0) 推荐(0)

weka使用笔记1-FPGrowth注意事项和参数说明

摘要：weka是一个很好的数据挖掘实验的工具，可以进行标准的数据挖掘的各种实验，首先来说一下关联规则的挖掘。在linux环境下，在使用weka之前，要配置好环境变量，将weka目录下的weka.jar的位置加到classpath中，然后就可以调用weka的命令行进行数据挖掘了。weka的apriori算法优化非常不好，相当占用内存，大约50w的属性开14G的内存都不够用，所以如果在本机进行数据量较大的实验的话，要选FPGrowth算法。FPGrowth算法只需要扫面两遍数据库，虽然他是递归的选择rules的，也比较占用内存，但是如果有4G以上的内存的话，基本上就够用了。至于FPGrowth的算法实现阅读全文

posted @ 2012-10-20 17:28 fbiswt 阅读(4413) 评论(5) 推荐(0)

冯博

10 2012 档案

公告