Weka和mahout的区别

mahout:

1.可大规模分布式计算

2.目标对象是程序开发人员

3.与hadoop和lucene有很好的接口

4.是围绕着可扩展的算法和接口特殊设计的

5.命令行和API

6.Apache  license

weka:

1.内存消耗厉害

2.目标对象是数据挖掘分析人员

3.有大量的算法集

4.GUI

5.GPL

 

功能层面,Weka 包含大量经过良好优化的机器学习和数据分析算法,可以处理与格式化、数据转换相关的各种任务,唯一的不足就是它对内存敏感的大数据处理的不好。而Mahout 则为大数据而生,作为一个新生的数据挖掘工具,它所支持的算法与Weka 相比依然很少,相关文档的质量也良莠不齐,但是它的优势在于不仅支持单机环境,还支持MapReduce 分布式计算,能够应对Weka 无法处理的大数据。

性能方面,algorithmia 通过使用两个工具都支持的算法(随机森林)对同一个数据集进行分类做了对比。结果显示,Weka 的最优准确率为99.39%(250 棵树),而Mahout 为95.89%(100 棵树),同时该实验也显示树的数量对Mahout 的分类准确率影响很小

posted @ 2020-10-24 17:03  墨冰心  阅读(169)  评论(0编辑  收藏  举报