数据挖掘 - 随笔分类 - 风中之炎

推荐系统相关算法(2)：k-nearest neighbor

摘要：1. kNN1.1 基本的kNN模型 kNN(k-nearest neighbor)的思想简单来说就是，要评价一个未知的东西U，只需找k个与U相似的已知的东西，并通过k个已知的，对U进行评价。假如要预测风炎君对一部电影M的评分，根据kNN的思想，我们可以先找出k个与风炎君相似的，并且对M进行过评分的用户，然后再用这k个用户的评分预测风炎君对M的评分。又或者先找出k个与M相似的，并且风炎君评价过的电影，然后再用这k部电影的评分预测风炎君对M的评分。在这个例子中，找相似用户的方法叫做user-based kNN，找相似物品的方法叫做item-based kNN。这两种方法的思想和实现都大同小异，. 阅读全文

posted @ 2012-07-13 18:37 风中之炎阅读(16584) 评论(24) 推荐(5)

谱聚类(spectral clustering)

摘要：1. 谱聚类给你博客园上若干个博客，让你将它们分成K类，你会怎样做？想必有很多方法，本文要介绍的是其中的一种——谱聚类。聚类的直观解释是根据样本间相似度，将它们分成不同组。谱聚类的思想是将样本看作顶点，样本间的相似度看作带权的边，从而将聚类问题转为图分割问题：找到一种图分割的方法使得连接不同组的边的权重尽可能低（这意味着组间相似度要尽可能低），组内的边的权重尽可能高（这意味着组内相似度要尽可能高）。将上面的例子代入就是将每一个博客当作图上的一个顶点，然后根据相似度将这些顶点连起来，最后进行分割。分割后还连在一起的顶点就是同一类了。更具体的例子如下图所示：在上图中，一共有6个顶点（博客），顶阅读全文

posted @ 2012-06-21 11:04 风中之炎阅读(51850) 评论(4) 推荐(9)

推荐系统相关算法(1)：SVD

摘要：1. SVD简介假如要预测Zero君对一部电影M的评分，而手上只有Zero君对若干部电影的评分和风炎君对若干部电影的评分（包含M的评分）。那么能预测出Zero君对M的评分吗？答案显然是能。最简单的方法就是直接将预测分定为平均分。不过这时的准确度就难说了。本文将介绍一种比这个最简单的方法要准上许多，并且也不算复杂的算法。 SVD(Singular Value Decomposition)的想法是根据已有的评分情况，分析出评分者对各个因子的喜好程度以及电影包含各个因子的程度，最后再反过来根据分析结果预测评分。电影中的因子可以理解成这些东西：电影的搞笑程度，电影的爱情爱得死去活来的程度，电影的恐怖程阅读全文

posted @ 2012-05-06 20:49 风中之炎阅读(51212) 评论(36) 推荐(18)

数据挖掘10大算法(1)——PageRank

摘要：1. 前言这系列的文章主要讲述2006年评出的数据挖掘10大算法（见图1）。文章的重点将偏向于算法的来源以及算法的主要思想，不涉及具体的实现。如果发现文中有错，希望各位指出来，一起讨论。图1 来自IDMer的文章在这些算法中，最引人注目的自然是Google的核心技术之一——PageRank。因此本系列就先来探索PageRank的诞生过程。2. 核心思想常言道，看一个人怎样，看他有什么朋友就知道了。也就是说，一个人有着越多牛X朋友的人，他是牛X的概率就越大。将这个知识迁移到网页上就是“被越多优质的网页所指的网页，它是优质的概率就越大”。PageRank的核心思想就是上述简单却有效的观点。. 阅读全文

posted @ 2011-11-12 16:13 风中之炎阅读(66608) 评论(12) 推荐(17)

随笔分类 - 数据挖掘

公告