数据挖掘 - 随笔分类 - 岁月静好--lyr

正则化项L1和L2的区别

摘要：https://blog.csdn.net/jinping_shi/article/details/52433975 https://blog.csdn.net/zouxy09/article/details/24971995 一、概括： L1和L2是正则化项，又叫做罚项，是为了限制模型的参数，防止阅读全文

posted @ 2018-04-04 16:43 岁月静好--lyr 阅读(44121) 评论(0) 推荐(4)

常见的损失函数

摘要：一、常见的损失函数：损失函数一般用来衡量预测值和真实值之间的不一致程度。是一个非负值，通常用L(y,f(x))来表示。 1.0-1损失函数：预测结果和真实结果一致，则为0，不一致则为1. 2.绝对值损失函数：真实值和预测值差的绝对值。 3.平方损失函数： 4.指数损失函数： 5.对数损失函数：阅读全文

posted @ 2018-04-04 11:03 岁月静好--lyr 阅读(2175) 评论(0) 推荐(0)

如何解决样本不均衡问题

摘要：解决样本不均衡的问题很多，主流的几个如下： 1.样本的过采样和欠采样。 2..使用多个分类器进行分类。 3.将二分类问题转换成其他问题。 4.改变正负类别样本在模型中的权重。一、样本的过采样和欠采样。 1.过采样：将稀有类别的样本进行复制，通过增加此稀有类样本的数量来平衡数据集。该方法适用于数据量阅读全文

posted @ 2018-04-03 20:58 岁月静好--lyr 阅读(12950) 评论(1) 推荐(0)

局部加权回归

摘要：局部加权线性回归(Locally weighted linear regression) 在线性回归中，特征选择不当时可能会造成过拟合和欠拟合。为了解决这个问题，引入局部加权回归，避免了线性回归中特征的选择，利用预测值周围的局部数据进行线性拟合。首先我们来看一个线性回归的问题，在下面的例子中，我们阅读全文

posted @ 2018-02-26 20:59 岁月静好--lyr 阅读(565) 评论(0) 推荐(0)

随机森林

摘要：一。简介随机森林，即用随机的方式建立一个森林，森林是由很多决策树组成。每一个决策树之间都是没有关联的。在得到森林之后，对于测试集，要让每一棵决策树分别进行一下判断该样本属于哪一类。根据哪个类被选择的多，该样本就是属于哪一类。比喻的说法：每一棵决策树就是一个精通于某一个窄领域的专家（因为我们从M 阅读全文

posted @ 2017-08-27 10:16 岁月静好--lyr 阅读(188) 评论(0) 推荐(0)

DBSCAN算法

摘要：一。基于密度的聚类算法简介 DBSCAN是数据挖掘中最经典基于密度的聚类算法。基于密度的聚类算法的核心是，通过某个点r邻域内样本点的数量来衡量该点所在空间的密度。和k-means算法的不同的是： 1.可以不需要事先指定cluster的个数。 2.可以找出不规则形状的cluster。二。DBSCA 阅读全文

posted @ 2017-08-27 09:10 岁月静好--lyr 阅读(3804) 评论(0) 推荐(0)

k-means算法的优缺点以及改进

摘要：大家接触的第一个聚类方法，十有八九都是K-means聚类啦。该算法十分容易理解，也很容易实现。其实几乎所有的机器学习和数据挖掘算法都有其优点和缺点。那么K-means的缺点是什么呢? 总结为下： (1)对于离群点和孤立点敏感； (2)k值选择; (3)初始聚类中心的选择； (4)只能发现球状簇。对阅读全文

posted @ 2017-08-26 20:10 岁月静好--lyr 阅读(10764) 评论(0) 推荐(0)

岁月静好--lyr

随笔分类 - 数据挖掘

公告