随笔分类 -  机器学习

主要关注机器学习算法,前期的主要参考书籍是《机器学习实战》
摘要:推荐系统是联系用户和物品的媒介 ——项亮《推荐系统实践》 是什么&为什么 当我最开始用豆瓣FM的时候,很快我就喜欢上了这个产品。用它听歌的逻辑很简单,他给你放什么你就听什么,没得选,但是你可以做的是告诉它你喜不喜欢这首歌,喜欢的话就点亮页面上的红星,不喜欢的话就扔进垃圾桶。少数几次的交互之后我就发现 阅读全文
posted @ 2017-03-13 15:51 木白的菜园 阅读(934) 评论(0) 推荐(0)
摘要:推荐系统是由一个或者多个算法和策略组成的这样一个系统,其商业价值在于实现产品提供者、产品用户以及推荐平三者的利益共赢。无论从算法的角度还是从商业的角度,效果好不好都是我们所关心的问题,所以实践者们对推荐系统系统提出了各种各样的评测指标来衡量其优劣性和适用性。 在介绍这些评测指标之前,我们先要知道一般 阅读全文
posted @ 2017-03-12 22:19 木白的菜园 阅读(3234) 评论(0) 推荐(0)
摘要:WRMF is like the classic rock of implicit matrix factorization. It may not be the trendiest, but it will never go out of style ... 阅读全文
posted @ 2017-03-12 20:20 木白的菜园 阅读(12586) 评论(0) 推荐(5)
摘要:概念 在回归(一)中提到用最小二乘法求解回归系数的过程中需要考虑特征矩阵是否可逆的问题,事实上当特征数量比样本数量多的时候(样本数m大于特征数n,X不是满秩矩阵)就会遇到这个问题,这个时候标准线性回归显然就无从下手了 引入岭回归就是为了解决这个问题,它是最先用来处理特征数多余样本数的算法。该算法的基 阅读全文
posted @ 2016-10-11 20:54 木白的菜园 阅读(18664) 评论(2) 推荐(2)
摘要:前言回顾一下回归(一)中的标准线性回归:step1: 对于训练集,求系数w,使得最小step2: 对于新输入x,其预测输出为w*x从中我们知道,标准线性回归可能表达能力比较差,出现如图所示的欠拟合的情况(underfitting):我们可以通过添加诸如x2或sin(x)等特征重新拟合函数来解决这个问题,但是这里讨论另一种方法:局部加权回归(Locally Weighted Linear Regre... 阅读全文
posted @ 2016-10-10 20:27 木白的菜园 阅读(4522) 评论(0) 推荐(0)
摘要:概念线性回归(linear regression)意味着可以把输入项分别乘以一些常量,然后把结果加起来得到输出。这个输出就是我们需要预测的目标值而这些常量就是所谓的回归系数我们把求这些回归系数的过程叫做回归,这个过程是对已知数据点的拟合过程更一般化的解释来自Tom M.Mitchell的《机器学习》:回归的含义是逼近一个实数值的目标函数标准线性回归那应该怎么求回归系数w呢。一个常用的方法是找出使得... 阅读全文
posted @ 2016-10-10 20:03 木白的菜园 阅读(4672) 评论(0) 推荐(2)
摘要:大纲简介支持向量机(support vector machines)是一个二分类的分类模型(或者叫做分类器)。如图:它分类的思想是,给定给一个包含正例和反例的样本集合,svm的目的是寻找一个超平面来对样本根据正例和反例进行分割。各种资料对它评价甚高,说“ 它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中”SVM之线性分类器如果一个线性函数能够... 阅读全文
posted @ 2016-07-10 16:39 木白的菜园 阅读(2540) 评论(0) 推荐(0)
摘要:简介要理解什么是降维,书上给出了一个很好但是有点抽象的例子。说,看电视的时候屏幕上有成百上千万的像素点,那么其实每个画面都是一个上千万维度的数据;但是我们在观看的时候大脑自动把电视里面的场景放在我们所能理解的三维空间来理解,这个很自然的过程其实就是一个降维(dimensionallity reduction)的过程降维有什么作用呢?数据在低维下更容易处理、更容易使用;相关特征,特别是重要特征更能在... 阅读全文
posted @ 2016-05-26 12:01 木白的菜园 阅读(14292) 评论(0) 推荐(0)
摘要:前言logistic回归的主要思想:根据现有数据对分类边界建立回归公式,以此进行分类所谓logistic,无非就是True or False两种判断,表明了这其实是一个二分类问题我们又知道回归就是对一些数据点拟合成线性函数,但是线性函数的值域是无穷的所以logistic和回归加在一起,就是要把取值范围从无穷映射到(0,1)上,使之成为一个二分类器所以本文会介绍怎么拟合一个回归函数,然后再把它作为自... 阅读全文
posted @ 2016-04-21 15:47 木白的菜园 阅读(501) 评论(0) 推荐(0)
摘要:前言Decision tree is one of the most popular classification tools它用一个训练数据集学到一个映射,该映射以未知类别的新实例作为输入,输出对这个实例类别的预测。决策树相当于将一系列问题组织成树,具体说,每个问题对应一个属性,根据属性值来生成判断分支,一直到决策树的叶节点就产生了类别。那么,接下来的问题就是怎么选择最佳的属性作为当前的判断分支... 阅读全文
posted @ 2016-04-20 19:16 木白的菜园 阅读(647) 评论(0) 推荐(0)
摘要:前言这是一个KNN算法的应用实例,参考《机器学习实战》中的datingTestSet2.txt的数据集。可以通过对不同约会对象的特征进行分析然后自动得出以下三种结论:不喜欢的有点魅力的很有魅力的准备数据这个数据集中针对每一个约会对象收集了三种具有代表性的特征,分别是:每年获得的飞行常客里程数玩网游所消耗的时间比每年消耗的冰淇淋公升数然后对每个约会对象的三种结论进行打分,对应的分数分别为1、2、3。... 阅读全文
posted @ 2016-04-20 14:33 木白的菜园 阅读(1225) 评论(0) 推荐(0)
摘要:基本原理KNN算法又叫最近邻居法,是一种非常简单易于掌握的分类算法。其基本原理是,存在一个已知标签的数据集合,也就是训练样本集。这个样本集中的每一个数据所属的分类都是已知的。当一个没有标签的新数据需要确定自己属于哪个分类的时候,只需要把新数据的每个特征和训练集中的每个数据的特征进行比较,找出其中和新数据最相似(最近邻)的k个数据,算法取这k个数据中出现次数最多的标签作为新数据的类别。通常k不大于2... 阅读全文
posted @ 2016-04-20 14:26 木白的菜园 阅读(1331) 评论(1) 推荐(0)