随笔分类 -  Hadoop

Naive Bayes在mapreduce上的实现
摘要:Naive Bayes是比较常用的分类器,因为思想比较简单。之所以说是naive,是因为他假设用于分类的特征在类确定的条件下是条件独立的,这个假设使得分类变得很简单,但会损失一定的精度。具体推导可以看《统计学习方法》经过推导我们可知y=argMaxP(Y=ck)*P(X=x|Y=ck)。那么我们需要... 阅读全文
posted @ 2015-06-05 09:04 sunrye 阅读(1650) 评论(1) 推荐(1)
Kmeans在MapReduce中的实现
摘要:参考了http://www.cnblogs.com/chaoku/p/3748456.html?utm_source=tuicool的代码。不过他的代码细节上有点问题。主要在于对于质心的处理上,他的代码中将前面的序号也作为数据进行求距离,但是这里是不用的。kmeans基本思想就是在一个点集中随机选取... 阅读全文
posted @ 2015-06-03 22:30 sunrye 阅读(2081) 评论(0) 推荐(0)
MapReduce 矩阵相乘
摘要:对于矩阵A[mn]*B[nl]=C[ml]。这里可以并行起来的就是每个Cij,对于Cij而言,他是由A的第i行和B的第j列相乘得到。由于大的矩阵中经常是稀疏矩阵,所以一般用行列值表示例如对于A:1 2 34 5 07 8 910 11 12他的行列值表为:1 1 11 2 21 3 32 1 42 ... 阅读全文
posted @ 2015-06-01 20:01 sunrye 阅读(325) 评论(0) 推荐(0)
MapReduce 简单的全文搜索2
摘要:上一个全文搜索实现了模糊查找,这个主要实现了精确查找,就是比如你查找mapreduce is simple那么他就只查找有这个句子的文章,而不是查找有这三个单词的文章。这个版本需要重写反向索引,因为需要查找句子,所以需要定位每个单词的在文章中的位置,所以我们的反向索引需要加上单词所在的位置,即我们希... 阅读全文
posted @ 2015-06-01 10:27 sunrye 阅读(269) 评论(0) 推荐(0)
MapReduce 简单的全文搜索
摘要:上一个已经实现了反向索引,那么为什么不尝试下全文搜索呢。例如有了Hello file3.txt:1;MapReduce file3.txt:2;fil1.txt:1;fil2.txt:1;bye file3.txt:1;is fil1.txt:1;fil2.txt:2;powerful fil2.t... 阅读全文
posted @ 2015-06-01 10:26 sunrye 阅读(449) 评论(0) 推荐(0)
MapReduce 多表连接
摘要:题目描述:现在有两个文件,1为存放公司名字和城市ID,2为存放城市ID和城市名表一:factoryname,addressedBeijing Red Star,1Shenzhen Thunder,3Guangzhou Honda,2Beijing Rising,1Guangzhou Developm... 阅读全文
posted @ 2015-06-01 10:24 sunrye 阅读(558) 评论(0) 推荐(0)
MapReduce 表连接
摘要:题目描述:根据给定的关系child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry JessePhilip TerryPhilip AlmaMark Terry... 阅读全文
posted @ 2015-06-01 10:23 sunrye 阅读(572) 评论(0) 推荐(0)
Mapreduce TopK
摘要:思想比较简单,就是每个通过map来获取当前的数据块中的的topk个数据,然后将他们以相同的key值放到reduce中,最后通过reduce来对这n*k个数据排序并获得topk个数据。具体的就是建立一个k个大小的数组,一开始初始化为都是100(假定这里的100是最大的数),然后往里面插数据小的数据即可... 阅读全文
posted @ 2015-06-01 10:22 sunrye 阅读(889) 评论(0) 推荐(0)