10 2012 档案
摘要:linux 单一结点安装中遇到的问题。配置文件都没有问题,能启动namenode 和datanode等,就是无法启动jobttarch和tasktrack,localhost:50070能够登录但是不能启打开localhost:50030。查看tasktrack的log发现问题是:javaIOException:localhost/127.0.0.1:9001 failed to connect。解决办法:把mapred-site.xml中的localhost改为本机的ip地址就好了,比如说”192.168.183.129“。
阅读全文
摘要:weka提供了11种聚类算法,常用的有kmeans 和EM,weka的simpleKmeans是最简单的聚类方法,距离是计算欧几里德距离,但是新版本的weka是可以置入自己的计算距离的公式的。EM聚类的效率很低,建议如果不是实验情况,不要使用。主要说一下simpleKmeans聚类。SimpleKmeans聚类参数很简单,这里不再赘述,文档里面写的很清楚。用图形界面的情况下,聚类之后,在左下方的result list栏里,右键,有很多选项,其中visualize cluster assignment可以看聚类之后的结果,在这个visualize界面,有一个save,是可以把类标号添加到每一行数
阅读全文
摘要:weka是一个很好的数据挖掘实验的工具,可以进行标准的数据挖掘的各种实验,首先来说一下关联规则的挖掘。在linux环境下,在使用weka之前,要配置好环境变量,将weka目录下的weka.jar的位置加到classpath中,然后就可以调用weka的命令行进行数据挖掘了。weka的apriori算法优化非常不好,相当占用内存,大约50w的属性开14G的内存都不够用,所以如果在本机进行数据量较大的实验的话,要选FPGrowth算法。FPGrowth算法只需要扫面两遍数据库,虽然他是递归的选择rules的,也比较占用内存,但是如果有4G以上的内存的话,基本上就够用了。至于FPGrowth的算法实现
阅读全文

浙公网安备 33010602011771号