会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
马天池的博客
博客园
首页
新随笔
联系
订阅
管理
2017年6月16日
谈谈推荐系统(一)什么是推荐系统
摘要: 前言: 上个月公司的同事提议组内做几次关于数据挖掘的技术串讲交流下学习和工作经验,本着提携新人的考虑,建议博主也讲点什么。开始时博主想简单讲一讲推荐算法的协同过滤算法。后来考虑到其实串讲不仅仅是和其他人交流分享,也是对自己已有知识的巩固。想一想还是加点挑战,谈谈推荐系统吧^_^。为什么选推荐系统呢,
阅读全文
posted @ 2017-06-16 20:03 马天池
阅读(2040)
评论(0)
推荐(1)
2017年6月14日
谈谈Flume
摘要: flume是一个分布式日志收集系统。 flume的核心是把数据从数据源(source)收集过来,在将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume再删除自己缓存的数据。
阅读全文
posted @ 2017-06-14 21:14 马天池
阅读(280)
评论(0)
推荐(0)
谈谈信息熵
摘要: 在大家学习数据挖掘算法中的决策树时,会知道决策树是通过信息熵来判读哪个特征是最适合做当前的根结点的。当然信息熵还可以被应用于压缩领域,通过信息熵可以知道文件的压缩下限。 那么到底什么是信息熵呢?首先提到熵,我们可能想的是在中学时代我们物理中的热力学的一个概念——通过熵来表示不稳定性。香农(本文封面是
阅读全文
posted @ 2017-06-14 21:05 马天池
阅读(651)
评论(0)
推荐(0)
谈谈HBase
摘要: 去年8月给我们平台封装了Hbase接口,一直想写一些关于hbase的,现在终于写了点。附思维导图一张 一、HBase基本概念 RowKey:是Byte array,是表中每条记录的“主键”,方便快速查找,Rowkey的设计非常重要。Column Family:列族,拥有一个名称(string),包含
阅读全文
posted @ 2017-06-14 20:56 马天池
阅读(561)
评论(0)
推荐(1)
谈谈余弦相似度
摘要: 基于余弦定理计算相似度的应用很多,比如推荐系统中的协同过滤,计算文本的相似性等等。它用计算两者空间向量的夹角来表示两者的相似性。 先看一下余弦定理的公式: $$ W_{UV}=\frac{∑U_iV_i}{\sqrt{∑U_i^2}\sqrt{∑V_i^2}} $$ 上诉公式表示UV两者的相似度,U
阅读全文
posted @ 2017-06-14 20:34 马天池
阅读(1571)
评论(0)
推荐(0)
谈谈PageRank
摘要: 闲来无事,整理一下算法。今天整理一下PageRank。 网上搜了搜感觉这篇文章还不错 http://www.cnblogs.com/fengfenggirl/p/pagerank-introduction.html 本文对这篇文章进行修改加工,加入了一些自己的思想,后面代码实现用了Spark而不是原
阅读全文
posted @ 2017-06-14 20:16 马天池
阅读(394)
评论(0)
推荐(0)
kerberos工作原理
摘要: 最近调研了kerberos。看了网上学多关于kerberos的文章,我认为这篇文章比较好。 http://blog.csdn.net/gracexu/article/details/1707032 这篇文章对麻省理工的论文进行翻译。该论文以四幕话剧的形式缓缓道来,有点像《研究之美》,通过两个人的头脑
阅读全文
posted @ 2017-06-14 20:01 马天池
阅读(814)
评论(0)
推荐(0)
公告