机器学习库Scikit-Learn与应用

机器学习：pandas统计只能针对小部分数据，小维度，

　　　　从过去的大量的数据中总结出来泛化规律，用于新数据预测

给我一堆数据，我怎么根据数据总结规律呢？

监督学习：

　　给一堆数据，然后给出标准答案，训练建立新的模型，然后用新的数据使用该模型，做出预测

　　分类问题：不同类别的预测，离散的，是属于哪一类？是还是不是？

　　回归问题（对连续值进行预测）：预测结果是哪一个值？

无监督学习：

　　不是所有的数据都有一个标准答案，对于某些数据，用户也不知道标准答案，只能根据现有数据，划分多个聚类，

　　物以类聚

　　数据降维

构建机器学习的一般流程

具体使用：

 1 from sklearn import datasets,preprocessing,neighbors
 2 from sklearn.metrics import accuracy_score
 3 from sklearn.model_selection import train_test_split
 4 
 5 iris=datasets.load_iris()
 6 X=iris.data #数据
 7 #print(iris.feature_names) #特征
 8 y=iris.target #标准答案
 9 X_train,X_test,y_train,y_test=(train_test_split(X,y,train_size=0.8,test_size=0.2)) #切分训练数据和测试数据，训练数据占80%
10 scaler = preprocessing.StandardScaler().fit(X_train) #拟合数据，缩放等
11 X_train=scaler.transform(X_train)  #缩放数据
12 X_test=scaler.transform(X_test)
13 
14 #初始化模型
15 knn = neighbors.KNeighborsClassifier(n_neighbors=5) #k邻近
16 knn.fit(X_train, y_train) #训练
17 y_pred = knn.predict(X_test) #预测
18 result=accuracy_score(y_test, y_pred) #评估
19 print(result) #1.0

View Code

posted @ 2018-03-06 14:55 88aa123 阅读(117) 评论(0) 收藏举报

刷新页面返回顶部

88aa123

机器学习库Scikit-Learn与应用

公告