博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

支持Python编程接口的开源数据挖掘软件Orange

Posted on 2012-08-30 11:08  刘乐  阅读(564)  评论(0)    收藏  举报
转自: http://www.how2dns.com/blog/?p=352

如果熟悉Java,考虑数据挖掘时通常会想到Weka,加上Ian H. Witten写的那本Data Mining: Practical Machine Learning Tools and Techniques有中文版, 所以用的人比较多。最近想用Python处理一下数据,想找个用能用Python编程的数据挖掘软件。在之前转的那篇 《五个开源数据挖掘软件》 里提到开源数据挖掘软件 Orange,@IDMer编译的这篇 《开源的数据挖掘工具》 中对几种开源软件进行了更详细的介绍和比较。Orange的特点是界面友好易于使用,提供大量可视化方法,提供Python编程接口,于是决定试用一下。

网上可以搜索到的Orange中文资料不多,这篇《利用orange进行关联规则挖掘》 给了一个通过Python调用Orange中的Apriori算法进行关联分析的例子,更详细的通过Python调用Orange的文档参考官网上的Beginning with Orange.图形界面的使用没看到文档,不过界面简单易懂,看看features里的screenshots也可猜个大概。参考Beginning with Orange中的Classification小节,以用Naive Bayesian Classifer处理Orange自带的示例数据集voting.tab为例,对代码做了少量修改:

  1 #-*- encoding: utf-8 -*-  

 2 # 导入orange包  
 3 import orange  
 4 # 导入测试数据voting.tab  
 5 data = orange.ExampleTable("voting")  
 6 # 使用Naive Bayesian Classifer  
 7 classifier = orange.BayesLearner(data)  
 8    
 9 # 输出  
10 all_data = len(data)  
11 bingo = 0  
12    
13 for d in data:  
14        
15 # 分类器输出的类别  
16     cc = classifier(d)  
17       
18 # 原文件中数据中的类别  
19     oc = d.getclass()  
20     if oc == cc:  
21         print 'bingo!',  
22         bingo += 1  
23     else:  
24         print 'oh,no!',  
25     print "original", oc, "classified as", cc  
26 # 输出Classification Accuracy  
27 print "CA: %.4f" % (float(bingo)/all_data)
运行上面的代码,可得到如下输出:
bingo! original republican classified as republican
……
bingo! original republican classified as republican
bingo! original republican classified as republican
CA: 0.9034
分类准确率CA为0.9034.
Python调用非常容易,只用了十几行代码,不过如果用图形界面,这个简单的分类只需要选择Data->File,Classify->Naive Bayes和Evaluate->Test Learners就行了,如下图所示,在File窗口中选择Data File为voting.tab,通过简单的拖拉将widget连起来即可,双击Test Learners可以看到CA为0.9011.

对比Python代码的输出和图形界面的结果,会发现两个结果不一致,原因是图形界面中使用的是5重交叉验证,而代码中使用的训练数据,如果选择”Test on train data”,两者就一致了。

简单的使用就是这些了,更复杂的使用还需要进一步摸索。