机器学习模型学习

机器学习库的学习

1.Scikit-learn

开始 python安装  pip install-U scikit-learn

以鸢尾花分类模型为例

1.鸢尾花数据集介绍

共三个数据集,Setosa鸢尾花、Versicolour鸢尾花、Virginica鸢尾花,每一类有50条样本记录,共计150条样本记录。

数据集分4种属性,花萼的长,花萼的宽,花瓣的长,花瓣的宽。

代码

#导入数据划分模块,数据划分模块可以将原始数据划分为训练数据集和测试数据集
#导入Sklearn的数据集
#导入Sklearn的K近邻分类器,K近邻分类器可以将数据集中特征值相近的数据划分为同一类别
from
sklearn.model_selection import train_test_split from sklearn import datasets from sklearn.neighbors import KNeighborsClassifier
#加载鸢尾花数据集 iris
= datasets.load_iris()
#取出所有数据 x
= iris.data
#取出标签 y
= iris.target
#将数据集切割训练数据集和测试数据集,本体为30%的测试数据集,70%为训练数据集 x_train, x_test, y_train, y_test
= train_test_split(x, y, test_size=0.3)
#定义模型方法,本例用的是K近邻算法 knn
= KNeighborsClassifier()
#调用fit方法自动完成模型训练 knn.fit(x_train, y_train)
#输出结果 print(knn.predict(x_test)) print(y_test)

2.Sklearn常用数据集

(1)自带数据集:

sklearn.datasets.load_<name>

(2)可在线下载的真实数据集

sklearn.datasets.fetch_<name>

(3)计算机生成的数据集

sklearn.datasets.make_<name>

(4)svmlight/libsvm格式的数据集

sklearn.datasets.load_svmlight_file()

(5)在线获取的数据集

sklearn.datasets.fetch_mldata()

 

posted @ 2022-01-12 16:11  韦德·沃兹  阅读(99)  评论(0)    收藏  举报