Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展到了它的第三个年头,目前已经有了三个公共发行版本。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。
-
Mahout源码分析之 -- QR矩阵分解
摘要:一、算法原理请参考我在大学时写的《QR方法求矩阵全部特征值》,其包含原理、实例及C语言实现:http://www.docin.com/p-114587383.html二、源码分析这里有一篇文章《使用MapRedece进行QR分解的步骤》可以看看/** For an m x n matrix A wi...
阅读全文
-
Mahout源码分析之 -- 文档向量化TF-IDF
摘要:fesh个人实践,欢迎经验交流!Blog地址:http://www.cnblogs.com/fesh/p/3775429.html Mahout之SparseVectorsFromSequenceFiles源码分析一、原理TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一...
阅读全文