摘要: 协同过滤是推荐算法中最基本的算法,主要分为基于用户的协同过滤算法和基于物品的协同过滤算法。这篇文章主要介绍基于用户的协同过滤算法,简单来说,要给用户u作推荐,那么只要找出那些和u之前的行为类似的用户,即和u比较像的用户,把他们的行为推荐给用户u即可。所以基于用户的系统过滤算法包括两个步骤:1)找到和... 阅读全文
posted @ 2015-07-09 20:30 白开水加糖 阅读(445) 评论(0) 推荐(0)
摘要: 基于物品的协同过滤算法(ItemCF)是业界应用最多的算法,主要思想是利用用户之前有过的行为,给用户推荐和之前物品类似的物品。基于物品的协同过滤算法主要分为两步:1)计算物品之间的相似度。2)根据物品的相似度和用户的历史行为给用户生成推荐列表。第一步的关键点在于计算物品之间的相似度,这里并不采用基于... 阅读全文
posted @ 2015-07-09 20:14 白开水加糖 阅读(912) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2015-07-09 18:26 白开水加糖 阅读(0) 评论(0) 推荐(0)
摘要: 以下是摘抄自知乎上对监督学习与非监督学习的总结,觉得写得很形象,于是记下:这个问题可以回答得很简单:是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习首先看什么是学习(learning)?一个成语就可概括:举一反三。此处以高... 阅读全文
posted @ 2015-07-07 14:29 白开水加糖 阅读(13412) 评论(0) 推荐(1)
摘要: 数据集成是把不同来源、格式和特点的数据在逻辑上或物理上有机地集中,从而为企业提供全 面的数据共享,是企业商务智能、数据仓库系统的重要组成部分。ETL是企业数据集成的概念出发,简要分析了当前ETL中用到的 一些基本技术,为ETL系统的开发和ETL技术的应用提供一些参考。1.ETL简介随着企业信息化建设... 阅读全文
posted @ 2015-07-07 12:35 白开水加糖 阅读(1603) 评论(0) 推荐(0)
摘要: 根据在炼数成金上的学习,将部分代码总结一下在需要的时候可以多加温习。首先根据原理作简要分析.一般推荐系统使用的协同过滤推荐模型:分别是基于ItemCF的推荐模型或者是基于UserCF的推荐模型;首先分析一下基于用户的推荐系统模型:基于用户的协同过滤,通过不同用户对物品的评分来评测用户之间的相似性,基... 阅读全文
posted @ 2015-07-06 09:28 白开水加糖 阅读(4261) 评论(0) 推荐(0)
摘要: 如果做网站的内容运营,相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息,从而提升网站内容浏览的流畅性,进而提升网站的价值转化。相关内容 推荐最常见的两块就是“关联推荐”和“相关内容推荐”,关联推荐就是我们常说的购物篮分析,即使用购买了某商品的用户同时购买了什么这个规则来发现商品间 的潜在联系,之... 阅读全文
posted @ 2015-07-03 17:45 白开水加糖 阅读(559) 评论(0) 推荐(0)
摘要: 文本自动分类技术是文字管理的基础。通过快速、准确的文本自动分类,可以节省大量的人力财力;提高工作效率;让用户快速获得所需资源,改善用户体验。本文着重对KNN文本分类算法进行介绍并提出改进方法。一、相关理论介绍文本分类技术的研究由来已久,并且取得了很多可喜的成果,形成了一套完整的文本自动分类流程。(1... 阅读全文
posted @ 2015-07-03 17:42 白开水加糖 阅读(1102) 评论(0) 推荐(0)
摘要: 在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分 类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。为了方便下面的解释和举例,先设... 阅读全文
posted @ 2015-07-03 16:46 白开水加糖 阅读(395) 评论(0) 推荐(0)
摘要: 最近研究数据挖掘的相关知识,总是搞混一些算法之间的关联,俗话说好记性不如烂笔头,还是记下了以备不时之需。首先明确一点KNN与Kmeans的算法的区别:1.KNN算法是分类算法,分类算法肯定是需要有学习语料,然后通过学习语料的学习之后的模板来匹配我们的测试语料集,将测试语料集合进行按照预先学习的语料模... 阅读全文
posted @ 2015-07-03 16:45 白开水加糖 阅读(34394) 评论(0) 推荐(0)