机器学习基础 brief description
摘要:FM: 解决特征稀疏情形下,特征如何组合的问题。对特征进行组合,在线性模型的基础上,加上特征的二阶交叉项。直接求解会由于二阶交叉没出现过,你就学不了,多每个特征引入辅助向量,分解之后可以使用sgd求解https://www.jianshu.com/p/152ae633fb00 FFM:field-a
阅读全文
FM基础
摘要:https://www.jianshu.com/p/152ae633fb00 https://ask.hellobi.com/blog/wenwen/11821
阅读全文
几种常见损失函数
摘要:损失函数 Loss Function 也可称为代价函数 Cost Function,用于衡量预测值与实际值的偏离程度。我们机器学习的目标就是希望预测值与实际值偏离较小,也就是希望损失函数较小,也就是所谓的最小化损失函数。 几种常见的损失函数如下: 1.0-1损失 :可用于分类问题,该函数用户衡量误分
阅读全文
LR与SVM的异同
摘要:相同点: 1.LR与SVM都是基本常用的分类算法 2.LR与SVM都是监督学习算法 3.LR与SVM都属于判别模型 4.如果不考虑核函数的话,LR与SVM都是线性分类算法 5.从损失函数来看的话,SVM与LR的损失函数都是对0-1损失的一个上限 6.SVM:1 / 2 *WtW + C Ein(分错
阅读全文
局部敏感哈希LSH
摘要:之前介绍了Annoy,Annoy是一种高维空间寻找近似最近邻的算法(ANN)的一种,接下来再讨论一种ANN算法,LSH局部敏感哈希。 LSH的基本思想是: 原始空间中相邻的数据点通过映射或投影变换后,在新空间中仍然相邻的概率很大,而不相邻的数据点映射后相邻的概率比较小。 也就是说,我们对原始空间中的
阅读全文
Annoy解析
摘要:Annoy是高维空间求近似最近邻的一个开源库。 Annoy构建一棵二叉树,查询时间为O(logn)。 Annoy通过随机挑选两个点,并使用垂直于这个点的等距离超平面将集合划分为两部分。 如图所示,图中灰色线是连接两个点,超平面是加粗的黑线。按照这个方法在每个子集上迭代进行划分。 依此类推,直到每个集
阅读全文
word2vec
摘要:1.词编码需要满足的几个条件: 保证词的相似性 向量空间分布的相似性 向量空间子结构(男人女人 国王女王) 2.计算机中表示一个词: 字典表示的话:不能分辨细节差异,需要大量认为劳动,主观,无法发现新词,很难精确凭借词之间的相似度 离散表示:one hot encoding (bag of word
阅读全文
GBDT
摘要:随机森林的Dtree是强分类器,而ABDT、GBDT的决策树是弱分类器。 ABDT GBDT的本质区别在于:损失函数不同,ABDT的损失函数是指数函数,GBDT做回归的损失函数是平方损失。min(eita) min(h)sigma n = 1,...,N err(sigma tao = 1,...,
阅读全文
Adaptive Boosting
摘要:AdaBoost是boosting的一种方法,其原理是通过改变训练样本的权重,得到m个不同的分类器,每个分类器根据其误差率em,有不同的权重系数alpha m,最后组合这些不同的分类器,得到最终的分类器。 具体地,首先所有样本权重都初始化为一样,学习之后或得一个em,根据em计算alpha m =
阅读全文
融合模型Aggregation
摘要:从一堆弱分类器融合得到强分类器。 比如假设现在你只能水平或竖直线分割,那么无论如何都分不好,但是假设组合三次分割,就会得到如图所示的一个较好的分割线。 再比如,PLA 融合后有large margin 的效果 几种可能的融合策略: 1.Uniform Blending 一人一票,权值相同。 理论保证
阅读全文
[转载]kd tree
摘要:[本文转自]http://www.cnblogs.com/eyeszjwang/articles/2429382.html k-d树(k-dimensional树的简称),是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。 应用背景 SIFT算法中做特征
阅读全文
朴素贝叶斯
摘要:基于贝叶斯公式:P(y|x) = P(y) * P(x | y) / p(x) 具体业务场景描述如下,用于分类问题。 我现在有训练集,每个训练集可以转换为一个特征值的向量Vec = [.........]和一个标签(是否是垃圾邮件,是否点击,是否患病等) 现在我们要基于训练集来预测新的特征值输进来之
阅读全文
K-近邻算法(KNN)
摘要:原理: 存在一个样数据集合,样本集中每个数据都存在标签,输入没有标签的新数据之后,将新数据的每个特征与样本数据的对应特征进行比较,算法提取出样本集中特征最相似的k个数据,然后这k个数据中出现次数最多的分类作为新数据的分类。 k越大,决策边界越平滑。实际中选择k,cross validation! 优
阅读全文
Linear Model for classification
摘要:1. Linear Model for Classification 解决分类问题我们之前主要见过三个:线性分类问题,线性回归问题解分类,logistic回归。接下来看看这三者之间的区别与联系。 三者的区别主要是误差函数不同: 在同一个图上表示如下: 为什么Uper Bound是有效果的?理论证明:
阅读全文
理解机器为什么可以学习(五)---Noise and Error
摘要:之前我们讨论了VC Dimension,最终得到结论,如果我们的hypetheset的VC Dimension是有限的,并且有足够的资料,演算法能够找到一个hypethesis,它的Ein很低的话,那么我们就大概学到了东西。 看看之前的learning flow: 我们有一个target funct
阅读全文
理解机器为什么可以学习(四)---VC Dimension
摘要:前面一节我们通过引入增长函数的上限的上限,一个多项式,来把Ein 和 Eout 的差Bound住,这一节引入VC Bound进一步说明这个问题。 前边我们得到,如果一个hypethesis集是有break point的,那么最终mh会被一个多项式bound住,如果break point 为k的话,那
阅读全文
理解机器为什么可以学习(三)---Theory of Generalization
摘要:前边讨论了我们介绍了成长函数和break point,现在继续讨论m是否成长很慢,是否能够取代M。 成长函数就是二分类的排列组合的数量。break point是第一个不能shatter(覆盖所有情形)的点。 1.break point对成长函数的限制 我们希望 这里引入上限函数 bound func
阅读全文
理解机器为什么可以学习(二)---Training versus Testing
摘要:前边由Hoeffding出发讨论了为什么机器可以学习,主要就是在N很大的时候Ein PAC Eout,选择较小的Ein,这样的Eout也较小,但是当时还有一个问题没有解决,就是当时的假设的h的集合是个数是有限的,那么本文继续讨论h个数为无限的情况。http://www.cnblogs.com/fut
阅读全文
理解机器为什么可以学习(一)---Feasibility of learning
摘要:主要讲解内容来自机器学习基石课程。主要就是基于Hoeffding不等式来从理论上描述使用训练误差Ein代替期望误差Eout的合理性。 PAC : probably approximately correct 一方面:根据PAC,针对一个h,Ein与Eout的差距很大的概率是很小的 另一方面:不能说直
阅读全文
Types of Learning
摘要:从四个角度大致总结一下不同类型的机器学习问题。 1. 按照输出空间的变化: 分类问题(二分类、多分类)、回归问题 2. 按照输出的标记变化: 监督学习 与 非监督学习 与 半监督学习(树的识别) 与 增强学习(训练宠物) 非监督学习又可以分为:分群问题、density estimation 、out
阅读全文