hadoop - 随笔分类 - coldyan

转载：hive分区（partiton）简介

摘要：网上有篇关于hive的partition的使用讲解的比较好，所以转载了。原文https://blog.csdn.net/akon_vm/article/details/37832511 一、背景 1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表阅读全文

posted @ 2018-04-09 10:18 coldyan 阅读(397) 评论(0) 推荐(0)

mapReduce的shuffle过程

摘要：http://www.jianshu.com/p/c97ff0ab5f49 总结shuffle 过程： map端的shuffle：（1）map端产生数据，放入内存buffer中；（2）buffer满的时候,将buffer里面的数据按照key来快排，然后写到磁盘中; (3)上面每次buffer满都阅读全文

posted @ 2016-12-19 21:23 coldyan 阅读(242) 评论(0) 推荐(0)

mapReduce编程之auto complete

摘要：1 n-gram模型与auto complete n-gram模型是假设文本中一个词出现的概率只与它前面的N-1个词相关。auto complete的原理就是，根据用户输入的词，将后续出现概率较大的词组显示出来。因此我们可以基于n-gram模型来对用户的输入作预测。我们的实现方法是：首先用mapr 阅读全文

posted @ 2016-11-20 00:51 coldyan 阅读(659) 评论(0) 推荐(0)

mapReduce编程之Recommender System

摘要：1 协同过滤算法协同过滤算法是现在推荐系统的一种常用算法。分为user-CF和item-CF。本文的电影推荐系统使用的是item-CF，主要是由于用户数远远大于电影数，构建矩阵的代价更小；另外，电影推荐系统中使用基于物品的推荐对用户来说更有说服力。因此本文对user-CF只做简单介绍，主要介绍i 阅读全文

posted @ 2016-11-15 15:21 coldyan 阅读(47) 评论(0) 推荐(0)

mapReduce编程之google pageRank

摘要：1 pagerank算法介绍 1.1 pagerank的假设数量假设：每个网页都会给它的链接网页投票，假设这个网页有n个链接，则该网页给每个链接平分投1/n票。质量假设：一个网页的pagerank值越大，则它的投票越重要。表现为将它的pagerank值作为它投票的加权值。 1.2 矩阵表示形式阅读全文

posted @ 2016-11-13 21:53 coldyan 阅读(393) 评论(0) 推荐(0)

coldyan

随笔分类 - hadoop

公告