机器学习库Scikit-Learn与应用

机器学习:pandas统计只能针对小部分数据,小维度,

    从过去的大量的数据中总结出来泛化规律,用于新数据预测

 

给我一堆数据,我怎么根据数据总结规律呢?

监督学习:

  给一堆数据,然后给出标准答案,训练建立新的模型,然后用新的数据使用该模型,做出预测

  分类问题:不同类别的预测,离散的,是属于哪一类?是还是不是?

  回归问题(对连续值进行预测):预测结果是哪一个值?

无监督学习:

  不是所有的数据都有一个标准答案,对于某些数据,用户也不知道标准答案,只能根据现有数据,划分多个聚类,

  物以类聚

  数据降维

 

构建机器学习的一般流程

具体使用:

 1 from sklearn import datasets,preprocessing,neighbors
 2 from sklearn.metrics import accuracy_score
 3 from sklearn.model_selection import train_test_split
 4 
 5 iris=datasets.load_iris()
 6 X=iris.data #数据
 7 #print(iris.feature_names) #特征
 8 y=iris.target #标准答案
 9 X_train,X_test,y_train,y_test=(train_test_split(X,y,train_size=0.8,test_size=0.2)) #切分训练数据和测试数据,训练数据占80%
10 scaler = preprocessing.StandardScaler().fit(X_train) #拟合数据,缩放等
11 X_train=scaler.transform(X_train)  #缩放数据
12 X_test=scaler.transform(X_test)
13 
14 #初始化模型
15 knn = neighbors.KNeighborsClassifier(n_neighbors=5) #k邻近
16 knn.fit(X_train, y_train) #训练
17 y_pred = knn.predict(X_test) #预测
18 result=accuracy_score(y_test, y_pred) #评估
19 print(result) #1.0
View Code

 

posted @ 2018-03-06 14:55  88aa123  阅读(111)  评论(0)    收藏  举报