随笔分类 -  sklearn与机器学习

摘要:一、简介 在用机器学习训练模型的时候,会将数据集D划分成训练集和测试集,因为如果在相同的数据上训练并测试无法评估模型的效果,常用的划分方法有K折交叉验证、p次k折交叉验证、留出法、留一法、留P法、随机分配、自助法等。另外,在训练模型的时候,经常需要进行调参,当我们有一堆参数的时候,也可以用类似的较差 阅读全文
posted @ 2019-11-06 18:48 我不是高斯分布 阅读(1547) 评论(0) 推荐(1)
摘要:一、数据的标准化、归一化、正则化 1、标准化 将数据转化为均值为0方差为1的数据,即标准正态分布。标准化可以规范数据,但不适用于稀疏数据,因为会破坏其数据结果。标准化的过程为两步:去均值的中心化(均值变为0);方差的规模化(方差变为1)。即每一列减去该列的均值再除以该列的方差。 在分类、聚类算法中, 阅读全文
posted @ 2019-09-30 09:34 我不是高斯分布 阅读(3026) 评论(0) 推荐(1)
摘要:一、sklearn中逻辑回归的相关类 在sklearn的逻辑回归中,主要用LogisticRegression和LogisticRegressionCV两个类来构建模型,两者的区别仅在于交叉验证与正则化系数C,下面介绍两个类(重要参数带**加绿): sklearn.linear_model.Logi 阅读全文
posted @ 2019-09-25 15:59 我不是高斯分布 阅读(9701) 评论(0) 推荐(0)
摘要:一、简介 sklearn.metrics中包含了许多模型评估指标,例如决定系数R2、准确度等,下面对常用的分类模型与回归模型的评估指标做一个区分归纳, 二、分类模型指标 1、准确率 分类准确率分数是指所有分类正确的百分比。分类准确率这一衡量分类器的标准比较容易理解,但是它不能告诉你响应值的潜在分布, 阅读全文
posted @ 2019-09-25 15:58 我不是高斯分布 阅读(9017) 评论(0) 推荐(0)
摘要:一、关于特征选择 主要参考连接为:参考链接,里面有详细的特征选择内容。 介绍 特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正 阅读全文
posted @ 2019-09-23 10:04 我不是高斯分布 阅读(2318) 评论(0) 推荐(0)
摘要:1、相关库: sklearn中分类树与回归树用到的类不同,对于分类树:sklearn.tree.DecisionTreeClassifier;对于回归树:sklearn.tree.DecisionTreeRegressor。 两者的参数区别如下表(搬运于https://www.cnblogs.com 阅读全文
posted @ 2019-04-16 17:12 我不是高斯分布 阅读(736) 评论(0) 推荐(0)
摘要:说明: 通过sklearn库进行数据集标准化,对训练数据做预处理,对测试集做同样的标准化。 1、通过函数scale() 函数介绍: 代码实例 : 运行结果: 2、通过创建类StandardScaler 在skleran库中除了用函数方法,还可以使用sklearn.preprocessing.Stan 阅读全文
posted @ 2019-04-16 15:06 我不是高斯分布 阅读(2487) 评论(0) 推荐(0)
摘要:练习代码: 运行结果: 阅读全文
posted @ 2019-04-16 14:49 我不是高斯分布 阅读(863) 评论(0) 推荐(0)