python 数据挖掘实战 - 随笔分类 - 曹孟德

朴素贝叶斯

摘要：利用近邻方法，很难量化分类的置信度。而基于概率的分类方法--贝叶斯方法，不仅可以分类，还可以给出分类概率。近邻方法别称为惰性学习方法(lazy learner)，当给出数据时，这些分类器只是将他们保存或者记录下来，每次对实例进行训练时，这些分类器都会遍历整个数据集，所以分类器的速度往往跟不上，贝叶斯阅读全文

posted @ 2016-11-16 17:33 曹孟德阅读(551) 评论(0) 推荐(0)

基于物品属性的过滤

摘要：之前学习了基于协同过滤的推荐。在写同意后过滤中，通过和你购买了同样的物品的人也购买了其他物品来推荐。协同过滤的难点包括数据稀疏问题和扩展问题。另一个问题是基于协同过滤的推荐倾向于推荐已经流行的商品。这种情况可能导致‘富者越富贫者越贫’。流行音乐平台Pandora的推荐基于一种称为音乐基因的项目分析阅读全文

posted @ 2016-10-26 10:14 曹孟德阅读(368) 评论(0) 推荐(0)

基于物品过滤的Slope One 算法

摘要：Slope One 算法是由 Daniel Lemire 教授在 2005 年提出的一个 Item-Based 推荐算法。他的主要优点是简单，易于扩展。实际上有多个Slope One算法，在此主要学习加权的Slope One算法。它将分为两步，第一步为计算所有物品间的偏差，第二步利用偏差进行预测阅读全文

posted @ 2016-10-24 20:55 曹孟德阅读(290) 评论(0) 推荐(0)

协同过滤-基于物品的过滤

摘要：现在假设你有100万个用户，每次对一个用户进行一次推荐时，需要计算100万次距离。如果每一秒需要进行多次推荐的话计算次数会十分巨大，系统会很慢。正式的说话是，基于令居的推荐系统的主要缺点是延迟性太差。 1 ）基于用户的过滤的两个主要问题： 1.扩展性问题：随着用户数量的增大，计算量会增大，基于用户阅读全文

posted @ 2016-10-23 17:51 曹孟德阅读(701) 评论(0) 推荐(0)

协同过滤-显式评级和隐式评级

摘要：显式评级：显式评级是指用户显式的给出物品的评价结果，例如直接打分显式评级存在的问题： 1 用户大多具有懒惰性，不愿意对物品进行评级：例如大部分人对购买的物品不愿意给出评价，这体现了一种用户懒惰行为 2 用户可能撒谎或者只给出部分信息：如果某人克服了懒惰性，真的对物品进行评分，该用户也可能撒谎 3 阅读全文

posted @ 2016-10-23 15:43 曹孟德阅读(878) 评论(0) 推荐(0)

协同过滤-爱你所爱

摘要：协同过滤，之所以协同是因为该方法是基于其他用户进行推荐的。工作流程如下：假设我们的任务是向你推荐一本书。我们会在网络上搜索与你相似兴趣的用户。一旦找到了这个用户，就看看这个用户喜欢的书，然后将其推荐给你。如何寻找相似用户？一般而言，通过计算两个用户的距离，两个用户距离越小则相似度越高。先来看距离的阅读全文

posted @ 2016-10-19 22:00 曹孟德阅读(311) 评论(0) 推荐(0)

曹孟德

随笔分类 - python 数据挖掘实战

公告