Hadoop - 随笔分类 - sunrye

Naive Bayes在mapreduce上的实现

摘要：Naive Bayes是比较常用的分类器，因为思想比较简单。之所以说是naive，是因为他假设用于分类的特征在类确定的条件下是条件独立的，这个假设使得分类变得很简单，但会损失一定的精度。具体推导可以看《统计学习方法》经过推导我们可知y=argMaxP(Y=ck)*P(X=x|Y=ck)。那么我们需要... 阅读全文

posted @ 2015-06-05 09:04 sunrye 阅读(1663) 评论(1) 推荐(1)

Kmeans在MapReduce中的实现

摘要：参考了http://www.cnblogs.com/chaoku/p/3748456.html?utm_source=tuicool的代码。不过他的代码细节上有点问题。主要在于对于质心的处理上，他的代码中将前面的序号也作为数据进行求距离，但是这里是不用的。kmeans基本思想就是在一个点集中随机选取... 阅读全文

posted @ 2015-06-03 22:30 sunrye 阅读(2091) 评论(0) 推荐(0)

MapReduce 矩阵相乘

摘要：对于矩阵A[mn]*B[nl]=C[ml]。这里可以并行起来的就是每个Cij,对于Cij而言，他是由A的第i行和B的第j列相乘得到。由于大的矩阵中经常是稀疏矩阵，所以一般用行列值表示例如对于A：1 2 34 5 07 8 910 11 12他的行列值表为：1 1 11 2 21 3 32 1 42 ... 阅读全文

posted @ 2015-06-01 20:01 sunrye 阅读(337) 评论(0) 推荐(0)

MapReduce 简单的全文搜索2

摘要：上一个全文搜索实现了模糊查找，这个主要实现了精确查找，就是比如你查找mapreduce is simple那么他就只查找有这个句子的文章，而不是查找有这三个单词的文章。这个版本需要重写反向索引，因为需要查找句子，所以需要定位每个单词的在文章中的位置，所以我们的反向索引需要加上单词所在的位置，即我们希... 阅读全文

posted @ 2015-06-01 10:27 sunrye 阅读(271) 评论(0) 推荐(0)

MapReduce 简单的全文搜索

摘要：上一个已经实现了反向索引，那么为什么不尝试下全文搜索呢。例如有了Hello file3.txt:1;MapReduce file3.txt:2;fil1.txt:1;fil2.txt:1;bye file3.txt:1;is fil1.txt:1;fil2.txt:2;powerful fil2.t... 阅读全文

posted @ 2015-06-01 10:26 sunrye 阅读(461) 评论(0) 推荐(0)

MapReduce 多表连接

摘要：题目描述：现在有两个文件，1为存放公司名字和城市ID，2为存放城市ID和城市名表一：factoryname,addressedBeijing Red Star,1Shenzhen Thunder,3Guangzhou Honda,2Beijing Rising,1Guangzhou Developm... 阅读全文

posted @ 2015-06-01 10:24 sunrye 阅读(563) 评论(0) 推荐(0)

MapReduce 表连接

摘要：题目描述：根据给定的关系child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry JessePhilip TerryPhilip AlmaMark Terry... 阅读全文

posted @ 2015-06-01 10:23 sunrye 阅读(580) 评论(0) 推荐(0)

Mapreduce TopK

摘要：思想比较简单，就是每个通过map来获取当前的数据块中的的topk个数据，然后将他们以相同的key值放到reduce中，最后通过reduce来对这n*k个数据排序并获得topk个数据。具体的就是建立一个k个大小的数组，一开始初始化为都是100（假定这里的100是最大的数），然后往里面插数据小的数据即可... 阅读全文

posted @ 2015-06-01 10:22 sunrye 阅读(900) 评论(0) 推荐(0)

随笔分类 - Hadoop