导航

随笔分类 -  sklearn

sklearn库使用解析
摘要:from sklearn.svm import SVC from sklearn.datasets import make_classification import numpy as np X,y = make_classification() def plot_validation_curve(estimator,X,y,param_name="gamma", ... 阅读全文

posted @ 2018-10-31 22:13 wzd321 阅读(585) 评论(0) 推荐(0)

摘要:def plot_learning_curve(estimator,X,y,cv=5,train_sizes=[0.1,0.3,0.5,0.7,0.8,0.9]): """ 描述:对于不同数量的训练样本的估计器的验证和训练评分 param estimator:object| param X:shape=[n_samples,n_feature] param... 阅读全文

posted @ 2018-10-31 21:42 wzd321 阅读(477) 评论(0) 推荐(0)

摘要:转载:https://www.toutiao.com/i6606193174010397187/ 当一个数据科学项目刚刚开始时,关键是要尽可能快地走向一个最小可行的产品(MVP)。这个MVP将包含最终数据产品的所有组件,但只具有最低限度的功能。在项目达到这一点之后,迭代和改进已经存在的Pipelin 阅读全文

posted @ 2018-10-02 11:10 wzd321 阅读(1693) 评论(0) 推荐(0)

摘要:转载:https://www.toutiao.com/i6606293133602849284/ 转载:https://blog.csdn.net/Q2605894893/article/details/81327027 一般的缺失值填充方法: 连续变量:中位数、平均数 离散变量:众数 上述的方法会 阅读全文

posted @ 2018-10-02 10:36 wzd321 阅读(2018) 评论(0) 推荐(0)

摘要:转载:https://www.cnblogs.com/jasonfreak/p/5448385.html 特征选择主要从两个方面入手: 特征是否发散:特征发散说明特征的方差大,能够根据取值的差异化度量目标信息. 特征与目标相关性:优先选取与目标高度相关性的. 对于特征选择,有时候我们需要考虑分类变量 阅读全文

posted @ 2018-09-22 10:16 wzd321 阅读(14913) 评论(0) 推荐(1)

摘要:上述代码主要完成了基于多个树模型的叶子节点输入到多个分类器或者回归器的模型融合策略,具有一定的扩展性和适应度。后面给出了一个基于随机深林和lightGBM的测试实例,供大家参考。这种模型融合策略在不同的地方效果不同,关键还是特征工程是否做得更好,该类方法在训练集上有一定的过拟合倾向。 欢迎评论和给出 阅读全文

posted @ 2018-09-19 21:37 wzd321 阅读(627) 评论(0) 推荐(0)

摘要:1.estimator: 传入估计器与不需要调参的参数,每一个估计器都需要一个scoring参数。 2.param_grid: 需要最优化的参数的取值,值为字典或者列表。 3.scoring: 模型评价标准,默认None,这时需要使用score函数,根据所选模型不同,评价准则不同。字符串或者自定义形 阅读全文

posted @ 2018-09-19 13:41 wzd321 阅读(719) 评论(0) 推荐(0)

摘要:转载:https://blog.csdn.net/jclian91/article/details/81238782 一个真实的例子: sklearn模块中很多方法的返回结果为self, 比如大多数模型的fit()方法,例子如下: 输出: LogisticRegression(C=1.0, clas 阅读全文

posted @ 2018-09-18 22:06 wzd321 阅读(2476) 评论(0) 推荐(0)

摘要:转载:https://github.com/LearningFromBest/CMB-credit-card-department-prediction-of-purchasing-behavior-in-consumer-finance-scenario/blob/master/stacking. 阅读全文

posted @ 2018-09-18 21:58 wzd321 阅读(2345) 评论(0) 推荐(0)

摘要:class sklearn.base.BaseEstimator:为所有的estimators提供基类 方法: 获取这个估计器的参数 Parameters: deep : boolean, optional True,将返回该estimator的参数,并包含作为estimator的子对象. Retu 阅读全文

posted @ 2018-09-16 16:12 wzd321 阅读(2301) 评论(0) 推荐(0)

摘要:我们可以通过包装器将Sequential模型(仅有一个输入)作为Scikit-Learn工作流的一部分,相关的包装器定义在keras.wrappers.scikit_learn.py中: 这里有两个包装器可用: 分类器接口:keras.wrappers.scikit_learn.KerasClass 阅读全文

posted @ 2018-09-16 11:09 wzd321 阅读(293) 评论(0) 推荐(0)

摘要:1 #加载模块 2 from sklearn import datasets 3 from sklearn.externals import joblib 4 from sklearn.linear_model import LinearRegression 5 from sklearn.cross_validation import train_test_split 6 #分割数据... 阅读全文

posted @ 2018-09-11 22:02 wzd321 阅读(5521) 评论(0) 推荐(0)