随笔分类 -  数据挖掘

摘要:https://blog.csdn.net/jinping_shi/article/details/52433975 https://blog.csdn.net/zouxy09/article/details/24971995 一、概括: L1和L2是正则化项,又叫做罚项,是为了限制模型的参数,防止 阅读全文
posted @ 2018-04-04 16:43 岁月静好--lyr 阅读(44121) 评论(0) 推荐(4)
摘要:一、常见的损失函数: 损失函数一般用来衡量预测值和真实值之间的不一致程度。是一个非负值,通常用L(y,f(x))来表示。 1.0-1损失函数: 预测结果和真实结果一致,则为0,不一致则为1. 2.绝对值损失函数: 真实值和预测值差的绝对值。 3.平方损失函数: 4.指数损失函数: 5.对数损失函数: 阅读全文
posted @ 2018-04-04 11:03 岁月静好--lyr 阅读(2175) 评论(0) 推荐(0)
摘要:解决样本不均衡的问题很多,主流的几个如下: 1.样本的过采样和欠采样。 2..使用多个分类器进行分类。 3.将二分类问题转换成其他问题。 4.改变正负类别样本在模型中的权重。 一、样本的过采样和欠采样。 1.过采样:将稀有类别的样本进行复制,通过增加此稀有类样本的数量来平衡数据集。该方法适用于数据量 阅读全文
posted @ 2018-04-03 20:58 岁月静好--lyr 阅读(12950) 评论(1) 推荐(0)
摘要:局部加权线性回归(Locally weighted linear regression) 在线性回归中,特征选择不当时可能会造成过拟合和欠拟合。为了解决这个问题,引入局部加权回归,避免了线性回归中特征的选择,利用预测值周围的局部数据进行线性拟合。 首先我们来看一个线性回归的问题,在下面的例子中,我们 阅读全文
posted @ 2018-02-26 20:59 岁月静好--lyr 阅读(565) 评论(0) 推荐(0)
摘要:一。简介 随机森林,即用随机的方式建立一个森林,森林是由很多决策树组成。每一个决策树之间都是没有关联的。在得到森林之后,对于测试集,要让每一棵决策树分别进行一下判断该样本属于哪一类。根据哪个类被选择的多,该样本就是属于哪一类。 比喻的说法: 每一棵决策树就是一个精通于某一个窄领域的专家(因为我们从M 阅读全文
posted @ 2017-08-27 10:16 岁月静好--lyr 阅读(188) 评论(0) 推荐(0)
摘要:一。基于密度的聚类算法简介 DBSCAN是数据挖掘中最经典基于密度的聚类算法。 基于密度的聚类算法的核心是,通过某个点r邻域内样本点的数量来衡量该点所在空间的密度。和k-means算法的不同的是: 1.可以不需要事先指定cluster的个数。 2.可以找出不规则形状的cluster。 二。DBSCA 阅读全文
posted @ 2017-08-27 09:10 岁月静好--lyr 阅读(3804) 评论(0) 推荐(0)
摘要:大家接触的第一个聚类方法,十有八九都是K-means聚类啦。该算法十分容易理解,也很容易实现。其实几乎所有的机器学习和数据挖掘算法都有其优点和缺点。那么K-means的缺点是什么呢? 总结为下: (1)对于离群点和孤立点敏感; (2)k值选择; (3)初始聚类中心的选择; (4)只能发现球状簇。 对 阅读全文
posted @ 2017-08-26 20:10 岁月静好--lyr 阅读(10764) 评论(0) 推荐(0)