随笔分类 -  hadoop

摘要:网上有篇关于hive的partition的使用讲解的比较好,所以转载了。原文https://blog.csdn.net/akon_vm/article/details/37832511 一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表 阅读全文
posted @ 2018-04-09 10:18 coldyan 阅读(397) 评论(0) 推荐(0)
摘要:http://www.jianshu.com/p/c97ff0ab5f49 总结shuffle 过程: map端的shuffle: (1)map端产生数据,放入内存buffer中; (2)buffer满的时候,将buffer里面的数据按照key来快排,然后写到磁盘中; (3)上面每次buffer满都 阅读全文
posted @ 2016-12-19 21:23 coldyan 阅读(242) 评论(0) 推荐(0)
摘要:1 n-gram模型与auto complete n-gram模型是假设文本中一个词出现的概率只与它前面的N-1个词相关。auto complete的原理就是,根据用户输入的词,将后续出现概率较大的词组显示出来。因此我们可以基于n-gram模型来对用户的输入作预测。 我们的实现方法是:首先用mapr 阅读全文
posted @ 2016-11-20 00:51 coldyan 阅读(659) 评论(0) 推荐(0)
摘要:1 协同过滤算法 协同过滤算法是现在推荐系统的一种常用算法。分为user-CF和item-CF。 本文的电影推荐系统使用的是item-CF,主要是由于用户数远远大于电影数,构建矩阵的代价更小;另外,电影推荐系统中使用基于物品的推荐对用户来说更有说服力。因此本文对user-CF只做简单介绍,主要介绍i 阅读全文
posted @ 2016-11-15 15:21 coldyan 阅读(47) 评论(0) 推荐(0)
摘要:1 pagerank算法介绍 1.1 pagerank的假设 数量假设:每个网页都会给它的链接网页投票,假设这个网页有n个链接,则该网页给每个链接平分投1/n票。 质量假设:一个网页的pagerank值越大,则它的投票越重要。表现为将它的pagerank值作为它投票的加权值。 1.2 矩阵表示形式 阅读全文
posted @ 2016-11-13 21:53 coldyan 阅读(393) 评论(0) 推荐(0)