随笔分类 -  machine learning

摘要:工业界机器学习典型问题: 正负样本分布极不均匀(通常<1:10000),有什么较好的方案构造训练集的正负样本分布?构造后如何解决训练数据与预测的分布不一致? 处理内在不均衡 内在不均衡就是指数据本身特性决定了它的不均衡性。即使获取更多的数据,仍然改变不了数据的不均衡属性。 解决方案: F1 Scor 阅读全文
posted @ 2017-03-01 17:04 合唱团abc 阅读(15012) 评论(0) 推荐(1)
摘要:Online gradient descent(OGD) produces excellent prediction accuracy with a minimum of computing resources.However, in practice another key considerati 阅读全文
posted @ 2017-03-01 14:51 合唱团abc 阅读(2462) 评论(0) 推荐(0)
摘要:过拟合的原因:使用的模型过于复杂,根据VC维理论:VC维很高的时候,就容易发生bias很低,但variance很高的情形. 解决过拟合最常用的方法就是regularization, 常用的有:L1正则, L2正则等.L1正则会使得参数稀疏化, L2正则可以起到平滑的作用, 从贝叶斯理论的角度审视下正 阅读全文
posted @ 2017-03-01 11:50 合唱团abc 阅读(2905) 评论(1) 推荐(1)
摘要:www.csie.ntu.edu.tw/~cjlin/papers/ffm.pdf 读书笔记 The effect of feature conjunctions(组合特征) is difficult for linear models(比如LR) to learn because they lea 阅读全文
posted @ 2017-02-22 20:12 合唱团abc 阅读(1574) 评论(0) 推荐(0)
摘要:转自:https://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html (感谢,讲解的太好了) 在机器学习领域,有相当多的应用与奇异值都可以扯上关系,比如做feature reduction的PCA,做数 阅读全文
posted @ 2017-02-22 19:45 合唱团abc 阅读(332) 评论(0) 推荐(0)
摘要:转自:http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html http://blog.csdn.net/google19890102/article/details/45532745 FM原理 = 阅读全文
posted @ 2017-01-22 14:08 合唱团abc 阅读(17403) 评论(1) 推荐(1)
摘要:Bootstraping: 名字来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下: (1) 采用重抽样技术从原始样本中抽 阅读全文
posted @ 2017-01-18 09:46 合唱团abc 阅读(324) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/jerrylead/tag/Machine%20Learning/ PCA的思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主元,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。 feature re 阅读全文
posted @ 2016-11-01 10:19 合唱团abc 阅读(316) 评论(0) 推荐(0)
摘要:聚类算法是ML中一个重要分支,一般采用unsupervised learning进行学习,本文根据常见聚类算法分类讲解K-Means, K-Medoids, GMM, Spectral clustering,Ncut五个算法在聚类中的应用。 Clustering Algorithms分类: 1. P 阅读全文
posted @ 2016-11-01 10:17 合唱团abc 阅读(1727) 评论(0) 推荐(0)
摘要:LDA: LDA的全称是Linear Discriminant Analysis(线性判别分析),是一种supervised learning。有些资料上也称为是Fisher’s Linear Discriminant。 LDA的原理是,将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中 阅读全文
posted @ 2016-10-30 10:24 合唱团abc 阅读(723) 评论(0) 推荐(0)
摘要:supervised learning:训练数据集中样本的类别已知 unsupervised learning:事先并不知道任何样本的类别 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x。聚类的目的是 阅读全文
posted @ 2016-10-25 16:30 合唱团abc 阅读(406) 评论(0) 推荐(0)
摘要:转自: http://www.cnblogs.com/jmp0xf/archive/2013/05/14/Bias-Variance_Decomposition.html 阅读全文
posted @ 2016-10-22 15:24 合唱团abc 阅读(286) 评论(0) 推荐(0)
摘要:一、感知机模型 二、线性回归(Linear Regression) 三、Logistic Regression 四、SVM 五、kmeans https://en.wikipedia.org/wiki/Latent_semantic_analysis 阅读全文
posted @ 2016-10-18 20:03 合唱团abc 阅读(482) 评论(0) 推荐(0)
摘要:Bag-of-words model (BoW model) 最早出现在NLP和IR(information retrieval)领域. 该模型忽略掉文本的语法和语序, 用一组无序的单词(words)来表达一段文字或一个文档. 近年来, BoW模型被广泛应用于计算机视觉中. 与应用于文本的BoW类比 阅读全文
posted @ 2016-10-17 13:23 合唱团abc 阅读(3759) 评论(1) 推荐(1)
摘要:监督机器学习问题无非就是“minimize your error while regularizing your parameters”,也就是在正则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而正则化参数是防止我们的模型过分拟合我们的训练数据。 因为参数太多,会导致我们 阅读全文
posted @ 2016-10-12 09:33 合唱团abc 阅读(1134) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988406.html http://blog.pluskid.org/?p=685 考虑我们最初在“线性回归”中提出的问题,特征是房子的面积x,这里的x是实数,结果y是房子的价格。假设我们从样 阅读全文
posted @ 2016-10-11 10:38 合唱团abc 阅读(1363) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/maybe2030/p/5089753.html 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点。 下面我们以线性回归算法来对三种梯度下降法进行比较。 一般 阅读全文
posted @ 2016-09-28 09:32 合唱团abc 阅读(512) 评论(0) 推荐(0)
摘要:http://blog.csdn.net/songzitea/article/details/10035757 http://blog.csdn.net/holybin/article/details/25653597 在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法, 阅读全文
posted @ 2016-09-18 10:44 合唱团abc 阅读(674) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/llhthinker/p/5248586.html http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html Feature Scaling(数据规范化) 不同的特征量由于单位不同, 阅读全文
posted @ 2016-08-17 15:29 合唱团abc 阅读(568) 评论(0) 推荐(0)
摘要:基于邻域的算法分为两大类,一类是基于用户的协同过滤算法,另一类是基于物品的协同过滤算法。一、基于用户的协同过滤算法: 基于用户的协同过滤算法主要包括两个步骤(1) 找到和目标用户兴趣相似的用户集合(2) 找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户 步骤(1)的关键就是计算两 阅读全文
posted @ 2016-08-16 16:45 合唱团abc 阅读(1143) 评论(0) 推荐(0)