支持Python编程接口的开源数据挖掘软件Orange

Posted on 2012-08-30 11:08 刘乐阅读(564) 评论(0) 收藏举报

转自： http://www.how2dns.com/blog/?p=352

如果熟悉Java，考虑数据挖掘时通常会想到Weka，加上Ian H. Witten写的那本Data Mining: Practical Machine Learning Tools and Techniques有中文版, 所以用的人比较多。最近想用Python处理一下数据，想找个用能用Python编程的数据挖掘软件。在之前转的那篇《五个开源数据挖掘软件》里提到开源数据挖掘软件 Orange，@IDMer编译的这篇《开源的数据挖掘工具》中对几种开源软件进行了更详细的介绍和比较。Orange的特点是界面友好易于使用，提供大量可视化方法，提供Python编程接口，于是决定试用一下。

网上可以搜索到的Orange中文资料不多，这篇《利用orange进行关联规则挖掘》给了一个通过Python调用Orange中的Apriori算法进行关联分析的例子，更详细的通过Python调用Orange的文档参考官网上的Beginning with Orange.图形界面的使用没看到文档，不过界面简单易懂，看看features里的screenshots也可猜个大概。参考Beginning with Orange中的Classification小节，以用Naive Bayesian Classifer处理Orange自带的示例数据集voting.tab为例，对代码做了少量修改：

1 #-*- encoding: utf-8 -*-

2 # 导入orange包
3 import orange
4 # 导入测试数据voting.tab
5 data = orange.ExampleTable("voting")
6 # 使用Naive Bayesian Classifer
7 classifier = orange.BayesLearner(data)
8
9 # 输出
10 all_data = len(data)
11 bingo = 0
12
13 for d in data:
14
15 # 分类器输出的类别
16     cc = classifier(d)
17
18 # 原文件中数据中的类别
19     oc = d.getclass()
20     if oc == cc:
21         print 'bingo!',
22         bingo += 1
23     else:
24         print 'oh,no!',
25     print "original", oc, "classified as", cc
26 # 输出Classification Accuracy
27 print "CA: %.4f" % (float(bingo)/all_data)

运行上面的代码，可得到如下输出：
bingo! original republican classified as republican
……
bingo! original republican classified as republican
bingo! original republican classified as republican
CA: 0.9034
分类准确率CA为0.9034.
Python调用非常容易，只用了十几行代码，不过如果用图形界面，这个简单的分类只需要选择Data->File，Classify->Naive Bayes和Evaluate->Test Learners就行了，如下图所示，在File窗口中选择Data File为voting.tab，通过简单的拖拉将widget连起来即可，双击Test Learners可以看到CA为0.9011.

对比Python代码的输出和图形界面的结果，会发现两个结果不一致，原因是图形界面中使用的是5重交叉验证，而代码中使用的训练数据，如果选择”Test on train data”，两者就一致了。

简单的使用就是这些了，更复杂的使用还需要进一步摸索。

刷新页面返回顶部

SharePoint

公告

支持Python编程接口的开源数据挖掘软件Orange