机器学习 - 随笔分类 - futurehau

机器学习基础 brief description

摘要：FM: 解决特征稀疏情形下，特征如何组合的问题。对特征进行组合，在线性模型的基础上，加上特征的二阶交叉项。直接求解会由于二阶交叉没出现过，你就学不了，多每个特征引入辅助向量，分解之后可以使用sgd求解https://www.jianshu.com/p/152ae633fb00 FFM：field-a 阅读全文

posted @ 2020-02-20 21:05 futurehau 阅读(643) 评论(0) 推荐(0)

FM基础

摘要：https://www.jianshu.com/p/152ae633fb00 https://ask.hellobi.com/blog/wenwen/11821 阅读全文

posted @ 2020-02-19 23:06 futurehau 阅读(146) 评论(0) 推荐(0)

几种常见损失函数

摘要：损失函数 Loss Function 也可称为代价函数 Cost Function,用于衡量预测值与实际值的偏离程度。我们机器学习的目标就是希望预测值与实际值偏离较小，也就是希望损失函数较小，也就是所谓的最小化损失函数。几种常见的损失函数如下： 1.0-1损失：可用于分类问题，该函数用户衡量误分阅读全文

posted @ 2017-04-14 11:20 futurehau 阅读(4584) 评论(0) 推荐(0)

LR与SVM的异同

摘要：相同点： 1.LR与SVM都是基本常用的分类算法 2.LR与SVM都是监督学习算法 3.LR与SVM都属于判别模型 4.如果不考虑核函数的话，LR与SVM都是线性分类算法 5.从损失函数来看的话，SVM与LR的损失函数都是对0-1损失的一个上限 6.SVM：1 / 2 *WtW + C Ein(分错阅读全文

posted @ 2017-03-14 17:20 futurehau 阅读(18) 评论(0) 推荐(0)

局部敏感哈希LSH

摘要：之前介绍了Annoy，Annoy是一种高维空间寻找近似最近邻的算法（ANN）的一种，接下来再讨论一种ANN算法，LSH局部敏感哈希。 LSH的基本思想是：原始空间中相邻的数据点通过映射或投影变换后，在新空间中仍然相邻的概率很大，而不相邻的数据点映射后相邻的概率比较小。也就是说，我们对原始空间中的阅读全文

posted @ 2017-03-09 22:19 futurehau 阅读(731) 评论(0) 推荐(0)

Annoy解析

摘要：Annoy是高维空间求近似最近邻的一个开源库。 Annoy构建一棵二叉树，查询时间为O(logn)。 Annoy通过随机挑选两个点，并使用垂直于这个点的等距离超平面将集合划分为两部分。如图所示，图中灰色线是连接两个点，超平面是加粗的黑线。按照这个方法在每个子集上迭代进行划分。依此类推，直到每个集阅读全文

posted @ 2017-03-09 10:29 futurehau 阅读(9246) 评论(0) 推荐(0)

word2vec

摘要：1.词编码需要满足的几个条件：保证词的相似性向量空间分布的相似性向量空间子结构（男人女人国王女王） 2.计算机中表示一个词：字典表示的话：不能分辨细节差异，需要大量认为劳动，主观，无法发现新词，很难精确凭借词之间的相似度离散表示：one hot encoding (bag of word 阅读全文

posted @ 2017-03-06 10:42 futurehau 阅读(304) 评论(0) 推荐(0)

GBDT

摘要：随机森林的Dtree是强分类器，而ABDT、GBDT的决策树是弱分类器。 ABDT GBDT的本质区别在于：损失函数不同，ABDT的损失函数是指数函数，GBDT做回归的损失函数是平方损失。min(eita) min（h）sigma n = 1,...,N err(sigma tao = 1,..., 阅读全文

posted @ 2017-03-05 11:46 futurehau 阅读(477) 评论(0) 推荐(0)

Adaptive Boosting

摘要：AdaBoost是boosting的一种方法，其原理是通过改变训练样本的权重，得到m个不同的分类器，每个分类器根据其误差率em，有不同的权重系数alpha m，最后组合这些不同的分类器，得到最终的分类器。具体地，首先所有样本权重都初始化为一样，学习之后或得一个em，根据em计算alpha m = 阅读全文

posted @ 2017-03-02 14:32 futurehau 阅读(383) 评论(0) 推荐(0)

融合模型Aggregation

摘要：从一堆弱分类器融合得到强分类器。比如假设现在你只能水平或竖直线分割，那么无论如何都分不好，但是假设组合三次分割，就会得到如图所示的一个较好的分割线。再比如，PLA 融合后有large margin 的效果几种可能的融合策略： 1.Uniform Blending 一人一票，权值相同。理论保证阅读全文

posted @ 2017-03-02 10:50 futurehau 阅读(1312) 评论(0) 推荐(0)

［转载］kd tree

摘要：[本文转自]http://www.cnblogs.com/eyeszjwang/articles/2429382.html k-d树（k-dimensional树的简称），是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索（如：范围搜索和最近邻搜索）。应用背景 SIFT算法中做特征阅读全文

posted @ 2017-03-01 21:27 futurehau 阅读(173) 评论(0) 推荐(0)

朴素贝叶斯

摘要：基于贝叶斯公式：P(y|x) = P(y) * P(x | y) / p(x) 具体业务场景描述如下，用于分类问题。我现在有训练集，每个训练集可以转换为一个特征值的向量Vec = [.........]和一个标签（是否是垃圾邮件，是否点击，是否患病等）现在我们要基于训练集来预测新的特征值输进来之阅读全文

posted @ 2017-03-01 18:37 futurehau 阅读(267) 评论(0) 推荐(0)

K-近邻算法（KNN）

摘要：原理：存在一个样数据集合，样本集中每个数据都存在标签，输入没有标签的新数据之后，将新数据的每个特征与样本数据的对应特征进行比较，算法提取出样本集中特征最相似的k个数据，然后这k个数据中出现次数最多的分类作为新数据的分类。 k越大，决策边界越平滑。实际中选择k,cross validation! 优阅读全文

posted @ 2017-02-11 13:01 futurehau 阅读(521) 评论(0) 推荐(0)

Linear Model for classification

摘要：1. Linear Model for Classification 解决分类问题我们之前主要见过三个：线性分类问题，线性回归问题解分类，logistic回归。接下来看看这三者之间的区别与联系。三者的区别主要是误差函数不同：在同一个图上表示如下：为什么Uper Bound是有效果的？理论证明：阅读全文

posted @ 2017-01-16 23:18 futurehau 阅读(278) 评论(0) 推荐(0)

理解机器为什么可以学习（五）---Noise and Error

摘要：之前我们讨论了VC Dimension，最终得到结论，如果我们的hypetheset的VC Dimension是有限的，并且有足够的资料，演算法能够找到一个hypethesis，它的Ein很低的话，那么我们就大概学到了东西。看看之前的learning flow：我们有一个target funct 阅读全文

posted @ 2017-01-08 21:18 futurehau 阅读(207) 评论(0) 推荐(0)

理解机器为什么可以学习（四）---VC Dimension

摘要：前面一节我们通过引入增长函数的上限的上限，一个多项式，来把Ein 和 Eout 的差Bound住，这一节引入VC Bound进一步说明这个问题。前边我们得到，如果一个hypethesis集是有break point的，那么最终mh会被一个多项式bound住，如果break point 为k的话，那阅读全文

posted @ 2017-01-07 20:53 futurehau 阅读(867) 评论(0) 推荐(0)

理解机器为什么可以学习（三）---Theory of Generalization

摘要：前边讨论了我们介绍了成长函数和break point，现在继续讨论m是否成长很慢，是否能够取代M。成长函数就是二分类的排列组合的数量。break point是第一个不能shatter（覆盖所有情形）的点。 1.break point对成长函数的限制我们希望这里引入上限函数 bound func 阅读全文

posted @ 2017-01-05 20:58 futurehau 阅读(345) 评论(0) 推荐(0)

理解机器为什么可以学习（二）---Training versus Testing

摘要：前边由Hoeffding出发讨论了为什么机器可以学习，主要就是在N很大的时候Ein PAC Eout，选择较小的Ein，这样的Eout也较小，但是当时还有一个问题没有解决，就是当时的假设的h的集合是个数是有限的，那么本文继续讨论h个数为无限的情况。http://www.cnblogs.com/fut 阅读全文

posted @ 2017-01-03 22:33 futurehau 阅读(455) 评论(0) 推荐(0)

理解机器为什么可以学习（一）---Feasibility of learning

摘要：主要讲解内容来自机器学习基石课程。主要就是基于Hoeffding不等式来从理论上描述使用训练误差Ein代替期望误差Eout的合理性。 PAC : probably approximately correct 一方面：根据PAC,针对一个h,Ein与Eout的差距很大的概率是很小的另一方面：不能说直阅读全文

posted @ 2016-12-29 23:46 futurehau 阅读(484) 评论(0) 推荐(0)

Types of Learning

摘要：从四个角度大致总结一下不同类型的机器学习问题。 1. 按照输出空间的变化：分类问题（二分类、多分类）、回归问题 2. 按照输出的标记变化：监督学习与非监督学习与半监督学习（树的识别）与增强学习（训练宠物）非监督学习又可以分为：分群问题、density estimation 、out 阅读全文

posted @ 2016-12-29 00:12 futurehau 阅读(199) 评论(0) 推荐(0)

导航

随笔分类 - 机器学习