随笔分类 -  MachineLearning

摘要:Collaborative Recommender System基于User给Item的打分表,认为相似度很高的用户,会对同一个item给出相似的分数,找出K个相似度最高的用户,集合他们的打分,来推算目标用户对于某一item的打分。 1、每个用户打分的习惯范围不同,比如Bob习惯给出的最高分是5分, 阅读全文
posted @ 2018-01-26 05:43 Junfei_Wang 阅读(300) 评论(0) 推荐(0)
摘要:最初对于牛顿法,我本人是一脸懵的。其基本原理来源于高中知识。在如下图所示的曲线,我们需要求的是f(x)=0的解: 对于懵的原因,是忘记了高中所学的点斜式(Point Slope Form),直接贴一张高中数学讲义: 因为我们一路沿着x轴去寻找解,所以迭代求f(x)=0的解得通用式为: 与梯度下降相比 阅读全文
posted @ 2018-01-24 21:58 Junfei_Wang 阅读(8880) 评论(0) 推荐(0)
摘要:朴素贝叶斯算法(Naive Bayes)适用于在Training Set中,输入X和输出Y都是离散型的情况。如果输入X为连续,输出Y为离散,我们考虑使用逻辑回归(Logistic Regression)或者GDA(Gaussian Discriminant Algorithm)。 试想,当我们拿到一 阅读全文
posted @ 2018-01-22 04:46 Junfei_Wang 阅读(612) 评论(0) 推荐(0)
摘要:在此引出另一种模型:Locally weighted regression algorithm(LWLR/LWR),通过名字我们可以推断,这是一种更加关注局部变化的模型。的确如此,在普通的linear regression algorithm中,cost function是完全基于training 阅读全文
posted @ 2018-01-17 05:03 Junfei_Wang 阅读(348) 评论(0) 推荐(0)
摘要:在从事电商做频道运营时,每到关键时间节点,大促前,季度末等等,我们要做的一件事情就是品牌池打分,更新所有店铺的等级。例如,所以的商户分入SKA,KA,普通店铺,新店铺这4个级别,对于不同级别的商户,会给予不同程度的流量扶持或广告策略。通常来讲,在一定时间段内,评估的维度可以有:UV,收订金额,好评率 阅读全文
posted @ 2017-07-05 17:46 Junfei_Wang 阅读(2384) 评论(1) 推荐(0)
摘要:在基于高斯分布的异常检测算法一文中,详细给出了异常检测算法的原理及其公式,本文为该算法的Octave仿真。实例为,根据训练样例(一组网络服务器)的吞吐量(Throughput)和延迟时间(Latency)数据,标记出异常的服务器。 可视化的数据集如下: 我们根据数据集X,计算其二维高斯分布的数学期望 阅读全文
posted @ 2017-06-28 13:30 Junfei_Wang 阅读(885) 评论(0) 推荐(0)
摘要:记得在做电商运营初期,每每为我们频道的促销活动锁取得的“超高”销售额感动,但后来随着工作的深入,我越来越觉得这里面水很深。商家运营、品类运营不断的通过刷单来获取其所需,或是商品搜索排名,或是某种kpi指标,但这些所谓的“脏数据”,却妨碍了平台运营者对于真实数据的分析和促销效果的评估。今天我们讨论一种 阅读全文
posted @ 2017-06-26 09:53 Junfei_Wang 阅读(6515) 评论(0) 推荐(0)
摘要:当我们的机器学习算法表现不佳,也就是说处于欠拟合或过拟合时,通常我们有以下三种武器来提升算法表现 1、增加/减少复杂度 2、扩大/缩小Regularization Paremeter的值 3、更多的训练样例 如何评估我们的算法,以及正确使用这三种工具,向哪个方向调节参数,是本文的重点内容。 分割训练 阅读全文
posted @ 2017-06-23 09:34 Junfei_Wang 阅读(884) 评论(0) 推荐(0)
摘要:在设计Machine Learning系统时,我们很难从系统运行之前就得知系统的“复杂程度”。在线性回归中,我们可以将此问题等同为:使用几维参数,是否需要涉及更复杂的多项式,以及本文的一个新概念—Regularization Parameter。本文,将讨论Underfit,Overfit基本理论, 阅读全文
posted @ 2017-06-12 11:18 Junfei_Wang 阅读(3272) 评论(0) 推荐(0)
摘要:与Logistuc Regression相比,SVM是一种优化的分类算法,其动机是寻找一个最佳的决策边界,使得从决策边界与各组数据之间存在margin,并且需要使各侧的margin最大化。比较容易理解的是,从决策边界到各个training example的距离越大,在分类操作的差错率就会越小。因此, 阅读全文
posted @ 2017-06-07 15:47 Junfei_Wang 阅读(1987) 评论(0) 推荐(0)
摘要:在下图所示的Neural Network中,我们将拥有三个节点的layer1及layer4分别称为输入和输出层,而中间的两层layer2,layer3称为隐藏层(hidden layer)。输入数据X,从左侧进入神经网络,经过层层传播最终从右侧输出的过程,称为Feedforward。而根据train 阅读全文
posted @ 2017-05-23 11:14 Junfei_Wang 阅读(1826) 评论(0) 推荐(0)
摘要:所需解决的问题是,训练一个Logistic Regression系统,使之能够识别手写体数字1-10,每张图片为20px*20px的灰度图。训练样例的输入X是5000行400列的一个矩阵,每一行存储一张图片(20^2=400),共5000个训练样例,而y则为手写体所表示的数字1-10。 利用Logi 阅读全文
posted @ 2017-05-18 10:04 Junfei_Wang 阅读(1444) 评论(0) 推荐(0)
摘要:Machine Learning Algorithms Linear Regression and Gradient Descent Local Weighted Regression Algorithm Logistic Regression Generative Model vs Discrim 阅读全文
posted @ 2017-05-17 17:30 Junfei_Wang 阅读(746) 评论(0) 推荐(0)
摘要:本次Octave仿真解决的问题是,根据两门入学考试的成绩来决定学生是否被录取,我们学习的训练集是包含100名学生成绩及其录取结果的数据,需要设计算法来学习该数据集,并且对新给出的学生成绩进行录取结果预测。 首先,我们读取并绘制training set数据集: 然后,我们来学习训练集,直接使用我们逻辑 阅读全文
posted @ 2017-05-14 20:24 Junfei_Wang 阅读(742) 评论(0) 推荐(0)
摘要:在线性回归算法中,我们看到,在training set中,输入矩阵X与向量y的值都是连续的。所以在二维空间中,我们可以用一条直线去模拟X与y的变化关系,寻找参数向量theta的取值。如根据房屋面积预测房价,根据日期、纬度来预测温度等等,我们称此类问题为回归(Regression)。 而本文,我们开始 阅读全文
posted @ 2017-05-10 14:10 Junfei_Wang 阅读(931) 评论(0) 推荐(0)
摘要:Normal Equation算法及其简洁,仅需一步即可计算出theta的取值,实现如下: 和梯度下降算法一样,我们预估1650square feet&3 bedrooms的房价: outputs: 阅读全文
posted @ 2017-05-05 10:50 Junfei_Wang 阅读(540) 评论(0) 推荐(0)
摘要:和梯度下降法一样,Normal Equation(正规方程法)算法也是一种线性回归算法(Linear Regression Algorithm)。与梯度下降法通过一步步计算来逐步靠近最佳θ值不同,Normal Equation提供了一种直接得到最佳θ值的公式。 我们知道,求解曲线f(x)=ax^2+ 阅读全文
posted @ 2017-04-28 14:57 Junfei_Wang 阅读(259) 评论(0) 推荐(0)
摘要:之前所讨论的梯度下降算法,其算法模型是“线性回归模型”,我们可以理解为变量与因变量之间的关系是线性的。而现实情况是,使用线性模型去描述所有数据,很容易出现欠拟合(underfitting)的情况;同样,如果使用相当复杂的模型去描述数据集中所有的细节,则很容易产生另一种问题:过拟合(overfitti 阅读全文
posted @ 2017-04-21 20:06 Junfei_Wang 阅读(287) 评论(0) 推荐(0)
摘要:随着所学算法的增多,加之使用次数的增多,不时对之前所学的算法有新的理解。这篇博文是在2018年4月17日再次编辑,将之前的3篇博文合并为一篇。 1.Problem and Loss Function 首先,Linear Regression是一种Supervised Learning,有input 阅读全文
posted @ 2017-04-18 07:09 Junfei_Wang 阅读(470) 评论(0) 推荐(0)
摘要:Rosenblatt于1958年发布的感知器算法,算是机器学习鼻祖级别的算法。其算法着眼于最简单的情况,即使用单个神经元、单层网络进行监督学习(目标结果已知),并且输入数据线性可分。我们可以用该算法来解决and 和 or的问题。 在讨论神经元的数学模型时,我们将单个神经元抽象为下图的信号流图形式。输 阅读全文
posted @ 2017-04-04 21:02 Junfei_Wang 阅读(1388) 评论(0) 推荐(0)