李燕 - 博客园

摘要：均值归一化可以让算法运行得更好。现在考虑这样一个情况：一个用户对所有的电影都没有评分，即上图所示的Eve用户。现在我们要学习特征向量（假设n=2）以及用户5的向量θ(5),因为用户Eve没有对任何电影打分，所以前面的一项为0，只有后面正则化的项，所以影响θ取值的只有后面的θ的正则化的项。所以要阅读全文

posted @ 2017-09-19 21:27 李燕阅读(4262) 评论(0) 推荐(0)

摘要：如上图中的predicted ratings矩阵可以分解成X与ΘT的乘积，这个叫做低秩矩阵分解。我们先学习出product的特征参数向量，在实际应用中这些学习出来的参数向量可能比较难以理解，也很难可视化出来，但是它们是做为区分不同电影的特征怎么来区分电影i与电影j是否相似呢？就是判断X(i)与X 阅读全文

posted @ 2017-09-19 20:21 李燕阅读(876) 评论(0) 推荐(0)

摘要：协同过滤算法(collaborative filtering )：同时求θ与x的值我们有了x的值，来估计θ的值；我们有了θ的值，来估计x的值；现在我们不想通过迭代的算法来求θ与x的值，我们想同时求x的值，将两个结合起来得到的代价函数如上图所示，在这个代价函数中，如果将x看作常数，则得到第一个代阅读全文

posted @ 2017-09-18 21:05 李燕阅读(793) 评论(0) 推荐(0)

摘要：协同过滤(collaborative filtering )能自行学习所要使用的特征如我们有某一个数据集，我们并不知道特征的值是多少，我们有一些用户对电影的评分，但是我们并不知道每部电影的特征（即每部电影到底有多少浪漫成份，有多少动作成份）假设我们通过采访用户得到每个用户的喜好，如上图中的Ali 阅读全文

posted @ 2017-09-18 20:14 李燕阅读(3050) 评论(0) 推荐(0)

摘要：如何对电影进行打分:根据用户向量与电影向量的内积我们假设每部电影有两个features,x1与x2。x1表示这部电影属于爱情片的程度，x2表示这部电影是动作片的程度，如Romance forever里面x1为1.0（说明电影大部分为爱情），x2=0.01(说明里面有一点动作场面)。还是像以前一样阅读全文

posted @ 2017-08-24 16:28 李燕阅读(4020) 评论(0) 推荐(1)

推荐系统(recommender systems):预测电影评分--问题描述

摘要：推荐系统很重要的原因：1》它是机器学习的一个重要应用2》对于机器学习来说，特征是非常重要的，对于一些问题，存在一些算法能自动帮我选择一些优良的features，推荐系统就可以帮助我们做这样的事情。推荐系统的问题描述使用电影评分系统，用户用1-5分给电影进行评分（允许评分在0-5之间，为了让在数学阅读全文

posted @ 2017-08-24 14:49 李燕阅读(1979) 评论(0) 推荐(0)

异常检测: 应用多元高斯分布进行异常检测

摘要：多元高斯(正态)分布多元高斯分布有两个参数u和Σ,u是一个n维向量，Σ协方差矩阵是一个n*n维矩阵。改变u与Σ的值可以得到不同的高斯分布。参数估计（参数拟合），估计u和Σ的公式如上图所示，u为平均值，Σ为协方差矩阵使用多元高斯分布来进行异常检测首先用我我们的训练集来拟合参数u和Σ，从而拟合模阅读全文

posted @ 2017-08-23 20:18 李燕阅读(3903) 评论(0) 推荐(0)

异常检测: 多元高斯分布

摘要：多元高斯分布(multivariate gaussian distribution)有一些优势也有一些劣势，它能捕获一些之前算法检测不出来的异常一个例子：为什么要引入多元高斯分布使用数据中心监控机器的例子，有两个features,x1:CUP Load, x2:Memory Use.将这两个fe 阅读全文

posted @ 2017-08-21 21:56 李燕阅读(2985) 评论(1) 推荐(0)

如何开发一个异常检测系统：使用什么特征变量(features)来构建异常检测算法

摘要：如何构建与选择异常检测算法中的features 如果我的feature像图1所示的那样的正态分布图的话，我们可以很高兴地将它送入异常检测系统中去构建算法。如果我的feature像图2那样不是正态分布的话，虽然我们也可以很好的运行算法，但是我们通常会使用一些转换方法，使数据看下来更像高斯分布，这样算阅读全文

posted @ 2017-08-21 17:42 李燕阅读(467) 评论(0) 推荐(0)

如何开发一个异常检测系统：异常检测 vs 监督学习

摘要：异常检测算法先是将一些正常的样本做为无标签样本来学习模型p(x),即评估参数，然后用学习到的模型在交叉验证集上通过F1值来选择表现最好的ε的值，然后在测试集上进行算法的评估。这儿用到了带有标签的数据，那么为什么不直接用监督学习对y=1和y=0的数据进行学习呢？而是要用到异常检测算法（先对无标签数据进阅读全文

posted @ 2017-08-21 16:03 李燕阅读(1808) 评论(0) 推荐(0)

李燕

公告