scikit-learn学习

载入数据

在scikit-learn之中,可以使用库中固有的数据,如著名的花朵数据。载入方式如下:

from sklearn import datasets #引入scikit-learn中的数据集
iris = datasets.load_iris() #载入花朵数据

如果想要导入自己的数据的话,可以利用numpy协助。假如你要导入的数据是M行N列。

import numpy as np

f = open("filename.txt")#填入文件路径

f.readline()  # skip the header会自动跳过表头

data = np.loadtxt(f)#得到纯矩阵

X = data[:, 1:]  # select columns 1 through end对矩阵之中的数据进行选择

Y= data[:, 0]   # select column 0, the stock price同上

数据如果是libsvm格式的话,可以这么做

from sklearn.datasets import load_svmlight_file
X_train, y_train = load_svmlight_file("/path/to/train_dataset.txt")#注意路径的正确性
X_train.todense()#将稀疏矩阵转化为完整特征矩阵
posted @ 2015-03-25 11:53  程序员小王  阅读(490)  评论(0编辑  收藏  举报