摘要: import numpy as np from matplotlib import pyplot as plt from sklearn import linear_model, datasets n_samples = 1000 n_outliers = 50 X, y, coef = datas 阅读全文
posted @ 2021-02-25 17:40 技术研究与问题解决 阅读(847) 评论(0) 推荐(0)
摘要: from sklearn.datasets import make_classification X, y = make_classification(n_samples=10000, # 样本个数 n_features=25, # 特征个数 n_informative=3, # 有效特征个数 n_ 阅读全文
posted @ 2021-02-25 17:31 技术研究与问题解决 阅读(4514) 评论(0) 推荐(2)
摘要: sklearn 中 模型保存有两种方式,版本不同,可查看官网,这里只做简单记录 方式一:序列化 序列化 的具体用法请自行研究 >>> from sklearn import svm >>> from sklearn import datasets >>> clf = svm.SVC() >>> X, 阅读全文
posted @ 2021-02-25 16:26 技术研究与问题解决 阅读(216) 评论(0) 推荐(0)
摘要: make_classification创建用于分类的数据集,官方文档 例子: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 阅读全文
posted @ 2021-02-25 16:18 技术研究与问题解决 阅读(251) 评论(0) 推荐(0)
摘要: 前面一节咱们已经介绍了决策树的原理已经在sklearn中的应用。那么这里还有两个数据处理和sklearn应用中的小知识点咱们还没有讲,但是在实践中却会经常要用到的,那就是交叉验证cross_validation和Pipeline。cross_validation是保证了咱们的模型不受数据分布的影响, 阅读全文
posted @ 2021-02-25 15:57 技术研究与问题解决 阅读(324) 评论(0) 推荐(0)
摘要: pipeline就是一个机器学习工作流 一个典型的机器学习构建包含若干个过程 1、源数据ETL 2、数据预处理 3、特征选取 4、模型训练与验证 以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。因此,对以上多个步骤、进行抽象建模,简化为流水线式工作流程则 阅读全文
posted @ 2021-02-25 14:59 技术研究与问题解决 阅读(480) 评论(0) 推荐(0)