一菲宝宝 - 博客园

2018年9月19日

摘要：作者：城东链接：https://www.zhihu.com/question/28641663/answer/110165221来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。目录 1 特征工程是什么？2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 阅读全文

posted @ 2018-09-19 14:26 一菲宝宝阅读(8263) 评论(0) 推荐(0)

降维方法20180919

摘要：数据降维的目的:数据降维，直观地好处是维度降低了，便于计算和可视化，其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。数据降维的好处：降维可以方便数据可视化+数据分析+数据压缩+数据提取等。降维方法 __ 属性选择：过滤法；包装法；嵌入法； |_ 映射方法 _线性映射方法：PCA、LDA、阅读全文

posted @ 2018-09-19 14:07 一菲宝宝阅读(422) 评论(0) 推荐(0)

特征选择算法

摘要：特征选择方法初识： 1、为什么要做特征选择在有限的样本数目下，用大量的特征来设计分类器计算开销太大而且分类性能差。2、特征选择的确切含义将高维空间的样本通过映射或者是变换的方式转换到低维空间，达到降维的目的，然后通过特征选取删选掉冗余和不相关的特征来进一步降维。3、特征选取的原则获取尽可能小的特征子阅读全文

posted @ 2018-09-19 13:39 一菲宝宝阅读(9333) 评论(0) 推荐(0)

2018年9月12日

PCA主成分分析 R语言

摘要： 1. PCA优缺点利用PCA达到降维目的，避免高维灾难。 PCA把所有样本当作一个整体处理，忽略了类别属性，所以其丢掉的某些属性可能正好包含了重要的分类信息 2. PCA原理条件1：给定一个m*n的数据矩阵D，其协方差矩阵为S. 如果D经过预处理，使得每个每个属性的均值均为0，则有S=DT 阅读全文

posted @ 2018-09-12 13:22 一菲宝宝阅读(3058) 评论(0) 推荐(0)

2018年9月10日

简单易懂的GBDT

摘要：转https://www.cnblogs.com/liuyu124/p/7333080.html 梯度提升决策树（Gradient Boosting Decision Tree，GBDT）算法是近年来被提及比较多的一个算法，这主要得益于其算法的性能，以及该算法在各类数据挖掘以及机器学习比赛中的卓越表阅读全文

posted @ 2018-09-10 20:33 一菲宝宝阅读(899) 评论(0) 推荐(0)

梯度提升树GBDT算法

摘要：转自https://zhuanlan.zhihu.com/p/29802325 本文对Boosting家族中一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 简称GBDT)做一个总结。GBDT有很多简称，有GBT（Gradient Boosting Tree）阅读全文

posted @ 2018-09-10 18:57 一菲宝宝阅读(875) 评论(0) 推荐(1)

2018年9月7日

各种RF的比较

摘要：转的。随机森林：是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。，随机森林对回归的结果在内部是取得平均但是并不是所有的回归都是取的平均，有些是取的和，以后会发博文来解释这样的一个现象，需要整理些资料出来。随机森林里的随机包含的意思是：样本随机特征随机参数随阅读全文

posted @ 2018-09-07 19:56 一菲宝宝阅读(592) 评论(0) 推荐(0)

旋转随机森林算法

摘要：当输入数据中存在非线性关系的时候，基于线性回归的模型就会失效，而基于树的算法则不受数据中非线性关系的影响，基于树的方法最大的一个困扰时为了避免过拟合而对树进行剪枝的难度，对于潜在数据中的噪声，大型的树倾向于受影响，导致低偏差（过度拟合）或高方差（极度不拟合）。不过如果我们生成大量的树，最终的预测值采阅读全文

posted @ 2018-09-07 19:00 一菲宝宝阅读(2932) 评论(0) 推荐(0)

2018年8月31日

Error: cannot allocate vector of size 88.1 Mb问题

摘要：这几天训练模型运行代码的时候，老是提示我说：Error: cannot allocate vector of size 88.1 Mb，只知道分配空间不足。下面是查资料看到的一些回答：一、这个是R的特点，有几个解决方法：1.升级到R3.3.0及以上版本，对内存的管理和矩阵计算好太多。在R3.2. 阅读全文

posted @ 2018-08-31 12:12 一菲宝宝阅读(10165) 评论(0) 推荐(0)

set.seed(7)什么意思

摘要：以前虽然在每个程序都看见过，但是没注意过这个问题，也不理解是什么意思，去搜了一些帖子才明白。其实，很好理解，就是如果你不加set.seed(7)，当然代码也可以执行这个命令，但是每次执行的结果都会不同。这就会出现一个，如果某学者对某问题进行研究，如果每次都是用随机数据，那会导致前后的不一致。但如果阅读全文

posted @ 2018-08-31 11:13 一菲宝宝阅读(436) 评论(1) 推荐(1)