随笔分类 -  机器学习

摘要:1、Xgboost对GBDT的优化 算法层面 1.XGB增加了正则项,能够防止过拟合。正则项为树模型复杂度,通过叶子节点数量和叶节点的值定义树模型复杂度。 T为叶子节点的数量,这T个叶子节点的值,组成了T维向量ω。 2.XGB损失函数是误差部分是二阶泰勒展开,GBDT 是一阶泰勒展开。因此损失函数近 阅读全文
posted @ 2019-04-16 16:52 Solong1989 阅读(773) 评论(0) 推荐(0)
摘要:看了很多博文,一谈到梯度下降,大多都在画图,类比“下山”。对于一开始想要了解“梯度下降”是个什么玩意儿时,这种类比法是非常有助于理解的。但是,当我大概知道了梯度下降是什么东西之后,我就好奇了,梯度下降究竟是怎样寻找到模型的最优参数的?不能一想到梯度下降,脑海中就只有“下山”的画面,“下山”不是目的, 阅读全文
posted @ 2018-11-05 11:53 Solong1989 阅读(1680) 评论(0) 推荐(0)
摘要:1.极大似然估计中取对数的原因: 取对数后,连乘可以转化为相加,方便求导; 对数函数ln为单调递增函数,不会改变似然函数极值点。 2.统计学三大相关系数对比: pearson积差相关系数,计算连续性变量才可采用;Spearman秩相关系数或Kendall等级相关系数,适合于定序变量或不满足正态分布假 阅读全文
posted @ 2018-10-22 16:09 Solong1989 阅读(668) 评论(0) 推荐(0)
摘要:1. PCA简介 PCA作为降维最重要的方法之一,在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。PCA的思想就是将高维数据投影到低维,一般基于两个标准选择投影方向: 基于最小投影距离 样本点到投影超平面的距离足够近 基于最大投影方差 样本点投影在超平面上的方差足够大,能够竟可能的分开,即方差 阅读全文
posted @ 2018-09-20 16:48 Solong1989 阅读(13093) 评论(0) 推荐(0)
摘要:本文结合sklearn中的特征选择的方法,讲解相关方法函数及参数的含义。 1. 移除低方差特征 方差越大的特征,可以认为是对目标变量越有影响的特征,是我们需要研究的特征。可以利用 VarianceThreshold,移除方差不满足一定阈值的特征。 class sklearn.feature_sele 阅读全文
posted @ 2018-09-13 10:33 Solong1989 阅读(12230) 评论(0) 推荐(0)
摘要:1.SVM简介 SVM方法建立在统计学VC维和结构风险最小化原则上,既可以用于分类(二/多分类)、也可用于回归和异常值检测。SVM具有良好的鲁棒性,对未知数据拥有很强的泛化能力,特别是在数据量较少的情况下,相较其他传统机器学习算法具有更优的性能。 使用SVM作为模型时,通常采用如下流程: sklea 阅读全文
posted @ 2018-09-10 19:08 Solong1989 阅读(36613) 评论(0) 推荐(3)
摘要:1.前言:为什么我们要关心模型的bias和variance? 大家平常在使用机器学习算法训练模型时,都会划分出测试集,用来测试模型的准确率,以此评估训练出模型的好坏。但是,仅在一份测试集上测试,存在偶然性,测试结果不一定准确。那怎样才能更加客观准确的评估模型呢,很简单,多用几份测试数据进行测试,取多 阅读全文
posted @ 2018-09-07 17:26 Solong1989 阅读(4506) 评论(0) 推荐(0)
摘要:本文LDA指线性判别模型,并非自然语言处理中的主题模型LDA。 1.LDA简介 LDA在模式识别领域(比如人脸识别等图形图像识别领域)中有非常广泛的应用。LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的 阅读全文
posted @ 2018-09-05 17:55 Solong1989 阅读(2307) 评论(0) 推荐(0)
摘要:参考 : https://blog.csdn.net/abc200941410128/article/details/78541273?locationNum=1&fps=1 聚类算法的目的就是将相似的数据对象划分为一类或者簇,使得在同一个簇内的数据对象尽可能相似,不同簇中的数据对象尽可能不相似。 阅读全文
posted @ 2018-08-27 17:20 Solong1989 阅读(2962) 评论(0) 推荐(0)
摘要:1.过拟合的问题 1.1 过拟合的定义 开篇首先谈一下机器学习模型的过拟合问题。什么是过拟合?简单来讲,当 train set 误差较小,而 test set 误差较大时,我们即可认为模型过拟合。这句话表达的另一层意思是,模型评估指标的方差(variance)较大,即可认为模型过拟合。另外,无论监督 阅读全文
posted @ 2018-08-06 18:10 Solong1989 阅读(21284) 评论(1) 推荐(0)
摘要:逻辑回归的常见面试点总结 转自:https://www.cnblogs.com/ModifyRong/p/7739955.html 1.简介 逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说 阅读全文
posted @ 2018-07-26 16:45 Solong1989 阅读(474) 评论(0) 推荐(0)