随笔分类 - python 数据挖掘实战
摘要:利用近邻方法,很难量化分类的置信度。而基于概率的分类方法--贝叶斯方法,不仅可以分类,还可以给出分类概率。近邻方法别称为惰性学习方法(lazy learner),当给出数据时,这些分类器只是将他们保存或者记录下来,每次对实例进行训练时,这些分类器都会遍历整个数据集,所以分类器的速度往往跟不上,贝叶斯
阅读全文
摘要:之前学习了基于协同过滤的推荐。 在写同意后过滤中,通过和你购买了同样的物品的人也购买了其他物品来推荐。协同过滤的难点包括数据稀疏问题和扩展问题。另一个问题是基于协同过滤的推荐倾向于推荐已经流行的商品。这种情况可能导致‘富者越富贫者越贫’。流行音乐平台Pandora的推荐基于一种称为音乐基因的项目分析
阅读全文
摘要:Slope One 算法是由 Daniel Lemire 教授在 2005 年提出的一个 Item-Based 推荐算法。 他的主要优点是简单,易于扩展。实际上有多个Slope One算法,在此主要学习加权的Slope One算法。它将分为两步,第一步 为计算所有物品间的偏差,第二步利用偏差进行预测
阅读全文
摘要:现在假设你有100万个用户,每次对一个用户进行一次推荐时,需要计算100万次距离。如果每一秒需要进行多次推荐的话计算次数会十分巨大,系统会很慢。正式的说话是,基于令居的推荐系统的主要缺点是延迟性太差。 1 )基于用户的过滤的两个主要问题: 1.扩展性问题: 随着用户数量的增大,计算量会增大,基于用户
阅读全文
摘要:显式评级:显式评级是指用户显式的给出物品的评价结果,例如直接打分 显式评级存在的问题: 1 用户大多具有懒惰性,不愿意对物品进行评级:例如大部分人对购买的物品不愿意给出评价,这体现了一种用户懒惰行为 2 用户可能撒谎或者只给出部分信息:如果某人克服了懒惰性,真的对物品进行评分,该用户也可能撒谎 3
阅读全文
摘要:协同过滤,之所以协同是因为该方法是基于其他用户进行推荐的。工作流程如下:假设我们的任务是向你推荐一本书。我们会在网络上搜索与你相似兴趣的用户。一旦找到了这个用户,就看看这个用户喜欢的书,然后将其推荐给你。 如何寻找相似用户?一般而言,通过计算两个用户的距离,两个用户距离越小则相似度越高。先来看距离的
阅读全文