2019年4月1日

PCA降维—降维后样本维度大小

摘要：之前对PCA的原理挺熟悉，但一直没有真正使用过。最近在做降维，实际用到了PCA方法对样本特征进行降维，但在实践过程中遇到了降维后样本维数大小限制问题。 MATLAB自带PCA函数：[coeff, score, latent, tsquared] = pca(X) 其中，X是n*p的，n是样本个数，p 阅读全文

posted @ 2019-04-01 11:34 gogo仙人掌阅读(3031) 评论(0) 推荐(1)

2019年2月24日

理解平滑

摘要：平滑的目的也是正则化的目的之一，它是针对参数w而言，本质上就是要使得w的变化不要那么剧烈，有如下数学模型（假设最小化J）：左侧是一个典型的线性回归模型，(xi，yi)就是实际的观测值，w就是估计的参数，右侧就是一个正则化项。可以直观的感受到，正则化项实际上起到了限制参数w的“变化程度或变化幅值”的阅读全文

posted @ 2019-02-24 17:57 gogo仙人掌阅读(464) 评论(0) 推荐(0)

2018年10月25日

集成学习

摘要：集成学习(ensemble learning)本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。集成学习可以用于分类问题集成，回归问题集成，特征选取集成，异常点检测集成等等，可以说所有的机器学习领域都可以看到集成学习的身影。本文就对集成学习的原理做一个总结。 1. 集成阅读全文

posted @ 2018-10-25 16:07 gogo仙人掌阅读(185) 评论(0) 推荐(0)

2018年10月3日

主成分分析法PCA原理

摘要： PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。网上关于PCA的文章有很多，但是大多数只描述了PCA的分析过程，而没有讲述其中的原理。这篇文章的阅读全文

posted @ 2018-10-03 18:56 gogo仙人掌阅读(361) 评论(0) 推荐(0)

2018年9月29日

笔记

摘要： 1.正则化模型选择的典型方法是正则化。正则化是结构风险最小策略的实现，是在经验风险上加一个正则化项。正则化项一般是模型复杂度的单调递增函数。正则化的作用是选择经验风险与模型复杂度同时小的模型。扁平稀疏（Flat sparsity）： the flat sparsity is often achi 阅读全文

posted @ 2018-09-29 17:37 gogo仙人掌阅读(181) 评论(0) 推荐(0)

2018年9月19日

矩阵范数及其求导

摘要：在机器学习的特征选择中，利用选择矩阵的范数对选择矩阵进行约束，即是正则化技术，是一种稀疏学习。矩阵的L0,L1范数为了度量稀疏矩阵的稀疏性，则定义矩阵的一种范数，为： ∥W∥1=∑i,j|Wi,j|。即为矩阵所有元素的绝对值之和，能够描述接矩阵的稀疏性，但是在优化时，难度较大，是将情况向矩阵中元阅读全文

posted @ 2018-09-19 15:49 gogo仙人掌阅读(27290) 评论(0) 推荐(0)

2018年9月13日

先验概率与后验概率

摘要：先验概率：根据以往经验和分析得到的概率；后验概率：事情已经发生，这件事情的发生是由某个原因引起的可能性的大小。（种果因概率,即在一个结果已经发生的条件下，可能是其中某一个原因造成的概率有多大。） 1）先验：根据统计历史上的经验、常识当下事件发生的概率； 2）似然：当下事件由果及因发生的概率； 3）阅读全文

posted @ 2018-09-13 12:16 gogo仙人掌阅读(6316) 评论(0) 推荐(1)

2018年8月29日

k-means缺陷

摘要： k均值算法非常简单且使用广泛，但是存在的缺陷有： 1. K值需要预先给定；属于预先知识，很多情况下K值的估计非常困难。 2. K-Means算法对初始选取的聚类中心点是敏感的；不同的随机种子点得到的聚类结果完全不同 3. K均值算法并不适合所有的数据类型；不能处理非球形簇、不同尺寸和不同密度的阅读全文

posted @ 2018-08-29 11:00 gogo仙人掌阅读(855) 评论(0) 推荐(0)

2018年8月9日

矩阵及矩阵范数求导

摘要：矩阵求导公式基本公式：Y = A * X --> DY/DX = AT, Y = X * A --> DY/DX = A Y=XT*A--> DY/DX = A Y = A * X--> DYT/DX = AT Y = A * X -->DY/DXT = (DYT/DX)T=A Y = AT * 阅读全文

posted @ 2018-08-09 15:35 gogo仙人掌阅读(3840) 评论(0) 推荐(0)

2018年7月26日

谱聚类（Spectral Clustring）原理

摘要：谱聚类（spectral clustering）是广泛使用的聚类算法，比起传统的K-Means算法，谱聚类对数据分布的适应性更强，聚类效果也很优秀，同时聚类的计算量也小很多，更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时，个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法阅读全文

posted @ 2018-07-26 17:56 gogo仙人掌阅读(407) 评论(0) 推荐(0)