随笔分类 - 数据挖掘
摘要:文本分类有很多种方法,朴素贝叶斯应该算是里面最容易的一种了吧。这篇文章简单介绍朴素贝叶斯的原理,然后是spark上的实现方法。 1,问题描述 现实中可能会一些问题,比如一个邮件是不是垃圾邮件?一个新闻是属于社会类还是科技类还是娱乐类?这些问题都可以抽象成:给定一些已经分类好的样本集合{(di,yi)
阅读全文
摘要:前面的文章"Weight Slope One算法"介绍了Weight Slope One算法,这个算法通常用于评分的预测,这种预测通常基于大数据,这篇文章将要讲述的就是hadoop下实现Weight Slpope One算法。Mrjob是python中的一个hadoop框架,为什么用python呢?因为使用python开发起来比较快,而且hadoop程序多是I/O密集型,所以用python比用java慢不了多少。用Mrjob编写和调试hadoop程序是非常简单和直观的,但是它内部一个序列化过程对性能产生的损害,因此现在用mrjob,还是感觉慢了些,希望以后它能修正这个问题。
阅读全文
摘要:[原文]:http://www.sobuhu.com/archives/567最近发现一个很好玩的Python库,可以方便的使用在Python下编写MapReduce任务,直接使用Hadoop Streaming在Hadoop上跑。对于一般的Hadoop而言,如果任务需要大量的IO相关操作(如数据库查询、文件读写等),使用Python还是Java、C++,性能差别不大,而如果需要大量的数据运算,那可能Python会慢很多(语言级别上的慢),参考这里。最常见的如日志分析、Query统计等,都可以直接用Python快速完成。Python作为一种快速开发语言,优美、简洁的语法征服了很多人,现在很多的
阅读全文
摘要:协同过滤方法是推荐系统采用的主要技术之一,这篇文章将要介绍此类方法中中的Weighted Slope One算法。Slope算法的核心思想来自线性回归分析。在线性回归分析中,给定一个训练集S={<x1,y1>,<x2,y2>...<xn,yn>}, Slope One算法假设xi和yi之间符合y=x+b的线性关系,根据最小二乘法进行线性拟合的方法,可以得到令目标函数:达到最小值的参数:b的估计值即为训练集中数对只差的算术平均值。因此,由训练我们可以得到线性拟合公式y=x+b^.上面即为Slope One算法的思想。其实,这个算法非常简单,举个例子:user
阅读全文

浙公网安备 33010602011771号