sklearn数据集
1.数据集划分
2.sklearn数据集接口介绍
3.sklearn分类数据集
4.sklearn回归数据集
数据集划分为:
1.原始数据集
2.测试数据集
接口介绍:
1.sklearn数据集划分API: sklearn.model_selection.train_test_split
2.scikit-learn数据集API介绍
.sklearn.datasets
.加载获取流行数据集
.datasets.load_*()
.获取小规模数据集,数据包含在datasets里
.datasets.fetch_*(data_home=None)
.获取大规模数据集,需要从网络下载,函数的第一个参数是data_home,表示素具集下载的目录,默认是~/scikit_learn_data/
获取数据集返回的类型
。load*和fetch*返回的数据类型datasets.base.Bunch(字典格式)
。data: 特征数据数组,是[n_samples*n_features]的二维numpy.ndarray数组
。target: 标签数组,是n_samples的一维numpy.ndarray数组
。DESCR:数组描述
。feature_names:特征名,新闻数据,手写数字、回归数据集没有
。target_names: 标签名
sklearn分类数据集
sklearn.datasets.load_iris() 加载并返回鸢尾花数据集
sklearn.datasets.load_digits() 加载并返回数字数据集
数据集进行分割
sklearn.model_selection.train_test_split(*arrays,**options)
.x 数据集的特征值
.y 数据集的标签值
.test_size 测试集的大小,一般为float
.random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
. return 训练集特征值,测试集特征值,训练标签,测试标签(默认随机取)
用于分类的大数据集
.sklearn.datasets.fetch_20newsgroups(data_home-None,subset='train')
.subset:'train'或者'test', 'all‘, 可选,选择要加载对的数据集,训练集的“训练”, 测试集的“测试”,两者的“全部”
.datasets.clear_home(data_home=None)
.清除目录下的数据
sklearn回归数据集
sklearn.datasets.load_boston()
加载并返回波士顿房价数据集
名称 数量
目标类型 5-50
特征 13
样本数量 506
sklearn.datasets.load_diabetes()
加载和返回糖药病数据集
名称 数量
目标范围 25-346
特征 10
样本数量 442
特征工程的步骤:
1.实例化(实例化的事一个转换器类(Transformer))
2.调用fit_transform( 对于问昂建立分类词频矩阵,不能同时调用)
sklearn机器学习算法的实现-估计器
在sklearn中,估计器(estimator)是一个重要的角色,是一类实现了算法的API
1.用于分类的估计器:
。sklearn.neighbors k-近邻算法
。sklearn.naive_bayes 贝叶斯
。sklearn.linear_model.LogisticRegressino 逻辑回归
。sklearn.tree 决策树与随机森林
2.用于回归的估计器:
。sklearn.linear_model.LinearRegression 线性回归
。sklearn.linear_model.Ridge 岭回归
3.聚合的估计器
。

浙公网安备 33010602011771号