SKLearn数据集API（二）

用于分类任务和聚类任务，这些函数产生样本特征向量矩阵以及对应的类别标签集合。

数据集	简介
make_blobs	多类单标签数据集，为每个类分配一个或者多个正态分布的点集，提供了控制每个数据点的参数：中心点（均值），标准差，常用于聚类算法。
make_classification	多类单标签数据集，为每个类分配了一个或者多个正态分布的点集。提供了为数据集添加噪声的方式，包括维度相性，无效特征和冗余特征等。
make_gaussian_quantiles	将一个单高斯分布的点集活粉为两个数量均等的点集，作为两类。
make_hastie_10_2	产生一个相似的二元分类器数据集，有10个维度。
make_circles/make_moons	产生二维分类数据集来测试某些算法（e.g.centroid-based clustering或linear classfication）的性能。可以为数据集添加噪声，可以为二元分类器产生一些球形判决表面的数据。

用于多标签分类任务

数据集	简介
make_multilabel_classification	产生多类多标签随机样本，这些样本模拟了从很多话题的混合分布中抽取的词袋模型，每个文档的话题数量符合泊松分布，话题本身则从一个固定的随机分布中抽取出来，同样的，单词数量也是泊松分布抽取，句子则是从多项式抽取。

用于回归任务的

数据集	简介
make_regression	产生回归任务的数据集，期望目标输出是随机特征的稀疏随机线性组合，并且附带有噪声，它的有用的特征可能是不相关的，或者低秩的（引起目标值的变动的只有少量的集合特征）
make_sparse_uncorrelated	产生四个特征的线性组合（固定参数）作为期望目标输出
make_friedman1	采用了多项式和正弦变换
make_friedman2	包含了特征的乘积和互换操作
make_friedman3	类似于arctan变换

用于流行学习的

数据集	简介
make_s_curve	生成S型曲线数据集
make_swiss_roll	生成瑞士卷曲线数据集

用于因子分解的

make_blobs()

make_classification()

make_moons()

make_circles()

svmlight/libsvm的每一行样本的存放格式

<label> <feature-id>:<feature-value> <feature-id>:<feature-value>...

使用下面的方式导入该格式的数据集

X_train, y_train = sklearn.datasets.load_svmlight_file('train.txt')

还可以使用下面的方式将训练集和测试集一起导入，可以保证X_train和X_test有同样数目的特征

X_train, y_train, X_test, y_test = sklearn.datasets.load_svmlight_file(('train.txt', 'test.txt'))

posted @ 2017-10-30 16:23 cnkai 阅读(1621) 评论(0) 收藏举报

刷新页面返回顶部

cnkai