织心 - 博客园

2013年5月18日

摘要： K-means算法简介K-means算法也被称为K-平均或K-均值，是一种得到最广泛使用的聚类算法。它是将各个聚类子集中的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而是生成的每个聚类内部紧凑，类间独立。K-means聚类是属于无监督学习的，以往的回归、朴素贝叶斯、SVM等都是有类别数值标签Y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特性x,聚类的目的是找到每个样本x潜在的类别y,并将同类别y的x放在一起。在聚类问题中，给我们的训练样本是{x(1),x(2),...x(m)},没阅读全文

posted @ 2013-05-18 17:13 织心阅读(470) 评论(0) 推荐(1)

2013年5月17日

机器学习-朴素贝叶斯

摘要：贝叶斯定理朴素贝叶斯定理主要是在已知某条件概率的前提下，如何得到两个事件交换后的概率，也就是在已知P(A/B)的情况下如何求得P(B/A).贝叶斯定理之所以那么有用，是因为我们在生活中经常遇到这种情况：我们可以很容易的直接得到P(A/B)，P(B/A)则很难直接得出，而我们更关心的是后者。贝叶斯就为我们解决了该问题，打通从P(A/B)到P（B/A）的道路，下面给出贝叶斯定理：朴素贝叶斯分类的原理朴素贝叶斯的分类思想很简单，思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个概率值最大就认为此待分类项属于哪个类。就好比这么个道理，你在街上看到一个黑人，让你猜猜这哥阅读全文

posted @ 2013-05-17 16:29 织心阅读(815) 评论(0) 推荐(0)

2013年4月21日

LSA(LSI)算法简介

摘要：前言在信息检索领域常用的检索和索引算法有空间向量模型和隐语义模型。传统向量空间模型向量空间模型是信息检索领域最常用的检索方法，其检索过程是，将文档集D中的所有文档和查询都表示成以单词为特征的向量，特征值为每个单词的TF-IDF值，然后使用向量空间模型（即计算查询Q的向量和每个文档的之间的相似度）来衡量文档和查询之间的相似度，从而得到和给定查询最相关的文档。缺点向量空间模型简单的基于单词的出现与否以及TF-IDF等信息来检索，但是说了和写了哪些单词和真正要表达的意思之间有很大的区别，其中两个最主要的阻碍是单词的多义性（polysems）和同义性（synonymys）。多义性指的是一个单词可能有多阅读全文

posted @ 2013-04-21 20:05 织心阅读(6091) 评论(2) 推荐(0)

2013年4月16日

基于内容的推荐简介

摘要：系统简介基于内容的推荐系统（也称CB）：根据用户历史信息（如评分、评价、分享、和收藏过的文档）构造用户偏好文档，计算推荐项目与用户偏好文档的相似度，将最相似的项目推荐给用户。例如，在书籍推荐中，基于内容的系统首先分析用户已经购买过的打分比较高的书籍的共性（作者、风格等），再推荐与这些用户感兴趣的书籍内容相似度高的其他电影。再例如一个推荐饭店的系统可以依据某个用户之前喜欢很多的烤肉店而为他推荐烤肉店。 CB最早主要是应用在信息检索系统当中，所以很多信息检索及信息过滤里的方法都能用于CB中。CB的一般流程CB一般包括三步：1.Item Representation：为每个item抽取出一些特征（i 阅读全文

posted @ 2013-04-16 14:58 织心阅读(1975) 评论(0) 推荐(0)

2013年4月15日

Item-based collaborative filtering

摘要： CF算法分为两大类，一类为基于memory的（Memory-based），另一类为基于Model的（Model-based），User-based和Item-based算法均属于Memory-based类型，具体的User-based的内容请参见我的前一篇博文，下面主要介绍Item-based算法Item-based算法主要分为两步：即item similarity computation和prediction computation(1)item similarity computation(物品相似度计算)在计算item的相似度时计算的过程如下图所示：计算相似度的算法主要有以下几种：a.基阅读全文

posted @ 2013-04-15 21:56 织心阅读(1000) 评论(0) 推荐(1)

基于用户的协同过滤算法简介

摘要：基本思想：根据用户对物品的评分向量之间的相似性，搜索目标用户的最近邻居，然后根据最近邻居的评分向目标用户产生推荐。基本步骤：主要分为三步：建立用户模型、寻找最近邻居和产生推荐物品。建立用户模型：协同过滤算法的输入数据通常表示为一个m*n的用户—评价矩阵R,m用户数，其中Rij其中Rij表示第i个用户对第j个物品的评分值:这里的评分值可以是用户的浏览次数，购买次数等隐式的评分，还可以采用显示评分，如用户对商品的直接评分，本算法的实现是采用用户对所购买商品的直接评分作为评分矩阵中评分值的。 2. 寻找最近邻居：主要完成对目标用户最近邻居的查找。通过计算目标用户与其他用户之间的相似度，算出与目标用. 阅读全文

posted @ 2013-04-15 17:40 织心阅读(2837) 评论(2) 推荐(3)

织心

公告