2013年11月12日

淘宝推荐系统

摘要: 一、推荐系统概念 1、推荐系统定义 维基百科:推荐系统属于资讯过滤的一种应用。推荐系统能够将可能受喜好的资讯或实物(例如:电影、电视节目、音乐、书籍、新闻、图片、网页)推荐给使用者。 推荐系统大体可分为两类,即个性化推荐和非个性化推荐。 2、推荐系统作用 从用户角度: 提高用户忠诚度帮助用户快... 阅读全文

posted @ 2013-11-12 21:11 代码王子 阅读(1080) 评论(0) 推荐(0)

Netflix公布个性化和推荐系统架构

摘要: Netflix的推荐和个性化功能向来精准,前不久,他们公布了自己在这方面的系统架构。 3月27日,Netflix的工程师Xavier Amatrain和Justin Basilico在官方博客发布文章,介绍了自己的个性化和推荐系统架构。文章开头,他们指出: 要开发出这样的一个软件架构,能够处理... 阅读全文

posted @ 2013-11-12 21:09 代码王子 阅读(224) 评论(0) 推荐(0)

18种典型算法

摘要: 18 Candidates for the Top 10 Algorithms in Data MiningClassification============== #1. C4.5Quinlan, J. R. 1993. C4.5: Programs for Machine Learning.... 阅读全文

posted @ 2013-11-12 21:06 代码王子 阅读(316) 评论(0) 推荐(0)

幂法和反幂法

摘要: 一、 幂法 1. 幂法 幂法是一种计算矩阵主特征值(矩阵按模最大的特征值)及对应特征向量的迭代方法, 特别是用于大型稀疏矩阵。 设实矩阵A=[aij]n×n 有一个完全的特征向量组,其特征值为λ1 ,λ2 ,…,λn,相应的特征向量为x1 ,x2 ,…,xn.已知A的主特... 阅读全文

posted @ 2013-11-12 21:01 代码王子 阅读(1573) 评论(0) 推荐(0)

最大流

摘要: 图-1 如图-1所示,在这个运输网络中,源点S和汇点T分别是1,7,各边的容量为C(u,v)。图中红色虚线所示就是一个可行流。标准图示法如图-2所示: 其中p(u,v) / c(u,v)分别表示该边的实际流量与最大容量。 关于最大流 熟悉了什么是网络流,最大流也就很... 阅读全文

posted @ 2013-11-12 20:59 代码王子 阅读(166) 评论(0) 推荐(0)

SVM

摘要: 1 简介 支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结构风... 阅读全文

posted @ 2013-11-12 20:38 代码王子 阅读(165) 评论(0) 推荐(0)

回归分析方法比较

摘要: 1 摘要 本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。 讲义最初介绍了一... 阅读全文

posted @ 2013-11-12 20:35 代码王子 阅读(650) 评论(0) 推荐(0)

判别模型、生成模型和朴素贝叶斯模型

摘要: 1判别模型与生成模型 上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为,在参数确定的情况下,求解条件概率。通俗的解释为在给定特征后预测结果出现的概率。 比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出... 阅读全文

posted @ 2013-11-12 20:34 代码王子 阅读(324) 评论(0) 推荐(0)

规则化和模型选择

摘要: 1 问题 模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)? 还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数? ... 阅读全文

posted @ 2013-11-12 20:33 代码王子 阅读(153) 评论(0) 推荐(0)

高斯混合模型和EM算法

摘要: 使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分... 阅读全文

posted @ 2013-11-12 20:32 代码王子 阅读(323) 评论(0) 推荐(0)

在线学习

摘要: 原题目叫做The perception and large margin classifiers,其实探讨的是在线学习。这里将题目换了换。以前讨论的都是批量学习(batch learning),就是给了一堆样例后,在样例上学习出假设函数h。而在线学习就是要根据新来的样例,边学习,边给出结果。 ... 阅读全文

posted @ 2013-11-12 20:31 代码王子 阅读(200) 评论(0) 推荐(0)

线性判别分析(一)

摘要: 1. 问题 之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。 比如回到上次提出的文档中含有“learn... 阅读全文

posted @ 2013-11-12 20:29 代码王子 阅读(1787) 评论(0) 推荐(0)

因子分析

摘要: 1 问题 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m=n+1才能保证在最大似然估计下得出的是非奇异的。然而在上面的任何一种假设限定条件下,只要m>=2都可以估计出限定的。 这样做的缺... 阅读全文

posted @ 2013-11-12 20:29 代码王子 阅读(526) 评论(0) 推荐(0)

增强学习

摘要: 在之前的讨论中,我们总是给定一个样本x,然后给或者不给label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题,很难有这么规则的样本。比如,四足机器人的控制问题,刚开始都不知道应该让其动那条腿,在移动过程中,也不知道怎么让机器人自动找到合适的前进方... 阅读全文

posted @ 2013-11-12 20:27 代码王子 阅读(187) 评论(0) 推荐(0)

典型关联分析

摘要: 1. 问题 在线性回归中,我们使用直线来拟合样本点,寻找n维特征向量X和输出结果(或者叫做label)Y之间的线性关系。其中,。然而当Y也是多维时,或者说Y也有多个特征时,我们希望分析出X和Y的关系。 当然我们仍然可以使用回归的方法来分析,做法如下: 假设,,... 阅读全文

posted @ 2013-11-12 20:27 代码王子 阅读(652) 评论(0) 推荐(0)

ICA

摘要: 1. 问题: 1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢? 2、经典的鸡尾酒宴会问题(cocktail party problem)。假设在party中有n个人,他们可以同时说话,我们也在房... 阅读全文

posted @ 2013-11-12 20:25 代码王子 阅读(665) 评论(0) 推荐(0)

PCA

摘要: PCA(Principal Component Analysis),称主成分分析,从统计学的角度来说是一种多元统计方法。PCA通过将多个变量通过线性变换以选出较少的重要变量。它往往可以有效地从过于“丰富”的数据信息中获取最重要的元素和结构,去除数据的噪音和冗余,将原来复杂的数据降维,揭... 阅读全文

posted @ 2013-11-12 20:22 代码王子 阅读(267) 评论(0) 推荐(0)

LDA主题模型

摘要: (一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: ... 阅读全文

posted @ 2013-11-12 16:46 代码王子 阅读(379) 评论(0) 推荐(0)

FPGrowth 实现

摘要: 在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。 支持度和置信度 严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁... 阅读全文

posted @ 2013-11-12 15:29 代码王子 阅读(323) 评论(0) 推荐(0)

数据库事务的4个特性ACID

摘要: 原子性(Atomicity[ætə'mɪsɪti])原型atomic、一致性(Consistency)、隔离性(Isolation)、持久性(Durability) 阅读全文

posted @ 2013-11-12 14:51 代码王子 阅读(112) 评论(0) 推荐(0)

导航