随笔分类 -  datamining

学习数据挖掘的各种问题和见解
摘要:1、编程时无法加载hive包,需要在编译好的spark(用spark-shell启动,用spark-sql能够直接访问hive表)的lib目录下,考出assembly包,为其创建一个maven的repository,然后添加到dependency里面。最笨的创建repository的办法就是直接创建... 阅读全文
posted @ 2015-07-14 15:11 fbiswt 阅读(1653) 评论(0) 推荐(0)
摘要:1、queue的设置 hadoop2.0支持了queue,在hadoop程序里面进行queue的配置: job.getConfiguration().set("mapred.job.queue.name", "your-queue-name");2、reduce key-value中间的分隔符... 阅读全文
posted @ 2014-04-02 15:46 fbiswt 阅读(922) 评论(0) 推荐(0)
摘要:Azkaban系统是一个数据处理的很好用的工具,可以用来运行hadoop任务,管理hdfs,可以进行schedule任务调度,总体来说功能还是很强大的。研究了一下azkaban,做了以下总结性的东西,希望对用azkaban的人有所帮助。1、Azkaban的安装azkaban需要用到mysql进行数据的存储和交换。azkaban分文两部分,分别是web server和executive server ,webserver 是前台页面的显示,默认的服务器是jetty,安装webserver需要对conf文件下的azkaban.properties文件进行配置,需要指定azkaban的web页面存储 阅读全文
posted @ 2013-09-13 12:15 fbiswt 阅读(1548) 评论(0) 推荐(0)
摘要:分类器在数据挖掘中的作用不言而喻,weka中的分类器有很多种类型,但是weka在输出结果中,只输出了一个分类的预测的类型,没有输出分类的得分,有一些不给力。如果想知道得分和其预测的类的话,就得调用weka的API。weka的API还是很方便的,如果我们已经输出了一个模型的话,那么用两句话就能在代码中获取这个模型:ObjectInputStream ob = new ObjectInputStream(new FileInputStream(model)); Classifier classifier = (Classifier) ob.readObject();这样就获取了分类器... 阅读全文
posted @ 2013-09-13 11:51 fbiswt 阅读(717) 评论(0) 推荐(0)
摘要:weka提供了11种聚类算法,常用的有kmeans 和EM,weka的simpleKmeans是最简单的聚类方法,距离是计算欧几里德距离,但是新版本的weka是可以置入自己的计算距离的公式的。EM聚类的效率很低,建议如果不是实验情况,不要使用。主要说一下simpleKmeans聚类。SimpleKmeans聚类参数很简单,这里不再赘述,文档里面写的很清楚。用图形界面的情况下,聚类之后,在左下方的result list栏里,右键,有很多选项,其中visualize cluster assignment可以看聚类之后的结果,在这个visualize界面,有一个save,是可以把类标号添加到每一行数 阅读全文
posted @ 2012-10-24 16:51 fbiswt 阅读(2956) 评论(0) 推荐(0)
摘要:weka是一个很好的数据挖掘实验的工具,可以进行标准的数据挖掘的各种实验,首先来说一下关联规则的挖掘。在linux环境下,在使用weka之前,要配置好环境变量,将weka目录下的weka.jar的位置加到classpath中,然后就可以调用weka的命令行进行数据挖掘了。weka的apriori算法优化非常不好,相当占用内存,大约50w的属性开14G的内存都不够用,所以如果在本机进行数据量较大的实验的话,要选FPGrowth算法。FPGrowth算法只需要扫面两遍数据库,虽然他是递归的选择rules的,也比较占用内存,但是如果有4G以上的内存的话,基本上就够用了。至于FPGrowth的算法实现 阅读全文
posted @ 2012-10-20 17:28 fbiswt 阅读(4390) 评论(5) 推荐(0)